1. 데이터 준비
형식: CSV, Excel, 데이터베이스, 또는 SAS 데이터셋 (.sas7bdat)
내용: 문서 ID, 텍스트 열, 메타데이터 (날짜, 카테고리 등)
ID | 내용
1 | 이 제품 정말 마음에 들어요.
2 | 서비스가 형편없었습니다.
2. 텍스트 마이닝 작업 환경
- SAS Text Miner: Enterprise Miner 기반의 드래그 앤 드롭 방식
- SAS Visual Text Analytics (VTA): Viya 기반, 웹 플랫폼 + 시각화
3. 주요 노드 구성 (Text Miner 기준)
| 단계 | 노드 이름 | 설명 |
|---|---|---|
| 입력 | File Import / Data Source | 외부 텍스트 불러오기 |
| 전처리 | Text Parsing | 토큰화, 어간 추출, 품사 분석 |
| 정제 | Text Filter | 불용어 제거, 최소 빈도 기준 필터링 |
| 분석 | Text Topic / Cluster / Rule Builder | 토픽 추출, 클러스터링, 규칙 기반 분류 |
| 시각화 | SVD Plot, Topic Viewer | 차원 축소 및 주제 시각화 |
| 출력 | Model Export / Score | 결과 저장 및 적용 |
4. 분석 예시 (SAS Text Miner)
- 텍스트 파싱: 형태소 분석 및 단어 추출 (한국어는 Komoran 등 외부 형태소 분석기 필요)
- 토픽 모델링: Text Topic 노드를 활용해 LSA 기반으로 주제 추출
- 텍스트 분류: Text Rule Builder 노드 또는 Decision Tree와 함께 사용 (예: 긍정/부정 분류)
5. SAS 코드 예시 (텍스트 처리)
proc textmine data=mydata;
doc_id id;
textvar 내용;
parse;
filter;
topics numtopics=5;
run;
위 코드는 SAS Viya 환경에서 텍스트 파싱 → 필터링 → 5개 주제 추출까지 수행합니다.
6. SAS Viya 환경 (SAS Visual Text Analytics)
- 웹 기반 GUI 제공
- 머신러닝 기반 개체명 인식, 감성 분석 모델 생성
- 지식 그래프 생성 가능
- REST API를 통한 파이프라인 자동화 지원
📊 사용 예시 요약
| 목표 | SAS에서 사용 가능한 기능 |
|---|---|
| 감성 분석 | Rule-based 또는 머신러닝 기반 분류 |
| 토픽 모델링 | LSA 기반 또는 NMF 방식 |
| 문서 분류 | Decision Tree, SVM 연동 |
| 키워드 분석 | 단어 빈도, TF-IDF, SVD 시각화 |
| 문서 클러스터링 | K-means, 계층적 군집 분석 |
📝 SAS Text Miner vs SAS VTA 비교
| 항목 | SAS Text Miner | SAS Visual Text Analytics (VTA) |
|---|---|---|
| 플랫폼 | Enterprise Miner | SAS Viya (웹 기반) |
| 방식 | 드래그 & 드롭 | 시각적 인터페이스 |
| 분석기능 | 기본 토픽/분류 | 감성 분석, 개체명 인식, 지식 모델 |
| 자동화 | 제한적 | Python/R API 또는 REST API 가능 |
| 추천 사용처 | 고전적인 분석 환경 | 최신 클라우드 대시보드 환경 |
✅ 마무리
SAS는 강력한 텍스트 분석 도구이며, 특히 비즈니스 인텔리전스, 금융, 의료 데이터 분야에서 많이 사용됩니다.
- GUI 중심의 정형화된 분석이 필요하다면 SAS Text Miner
- 머신러닝 기반 고급 분석과 자동화가 필요하다면 SAS Viya + VTA

0 댓글