[텍스트 마이닝] SAS Syntax

SAS로 텍스트 마이닝하는 방법

1. 데이터 준비

형식: CSV, Excel, 데이터베이스, 또는 SAS 데이터셋 (.sas7bdat)

내용: 문서 ID, 텍스트 열, 메타데이터 (날짜, 카테고리 등)

ID | 내용
1  | 이 제품 정말 마음에 들어요.
2  | 서비스가 형편없었습니다.

단계	노드 이름	설명
입력	File Import / Data Source	외부 텍스트 불러오기
전처리	Text Parsing	토큰화, 어간 추출, 품사 분석
정제	Text Filter	불용어 제거, 최소 빈도 기준 필터링
분석	Text Topic / Cluster / Rule Builder	토픽 추출, 클러스터링, 규칙 기반 분류
시각화	SVD Plot, Topic Viewer	차원 축소 및 주제 시각화
출력	Model Export / Score	결과 저장 및 적용

proc textmine data=mydata;
   doc_id id;
   textvar 내용;
   parse;
   filter;
   topics numtopics=5;
run;

위 코드는 SAS Viya 환경에서 텍스트 파싱 → 필터링 → 5개 주제 추출까지 수행합니다.

항목	SAS Text Miner	SAS Visual Text Analytics (VTA)
플랫폼	Enterprise Miner	SAS Viya (웹 기반)
방식	드래그 & 드롭	시각적 인터페이스
분석기능	기본 토픽/분류	감성 분석, 개체명 인식, 지식 모델
자동화	제한적	Python/R API 또는 REST API 가능
추천 사용처	고전적인 분석 환경	최신 클라우드 대시보드 환경

SAS는 강력한 텍스트 분석 도구이며, 특히 비즈니스 인텔리전스, 금융, 의료 데이터 분야에서 많이 사용됩니다.