[텍스트 마이닝] SAS Syntax


SAS로 텍스트 마이닝하는 방법

1. 데이터 준비

형식: CSV, Excel, 데이터베이스, 또는 SAS 데이터셋 (.sas7bdat)

내용: 문서 ID, 텍스트 열, 메타데이터 (날짜, 카테고리 등)

ID | 내용
1  | 이 제품 정말 마음에 들어요.
2  | 서비스가 형편없었습니다.

2. 텍스트 마이닝 작업 환경

  • SAS Text Miner: Enterprise Miner 기반의 드래그 앤 드롭 방식
  • SAS Visual Text Analytics (VTA): Viya 기반, 웹 플랫폼 + 시각화

3. 주요 노드 구성 (Text Miner 기준)

단계 노드 이름 설명
입력 File Import / Data Source 외부 텍스트 불러오기
전처리 Text Parsing 토큰화, 어간 추출, 품사 분석
정제 Text Filter 불용어 제거, 최소 빈도 기준 필터링
분석 Text Topic / Cluster / Rule Builder 토픽 추출, 클러스터링, 규칙 기반 분류
시각화 SVD Plot, Topic Viewer 차원 축소 및 주제 시각화
출력 Model Export / Score 결과 저장 및 적용

4. 분석 예시 (SAS Text Miner)

  • 텍스트 파싱: 형태소 분석 및 단어 추출 (한국어는 Komoran 등 외부 형태소 분석기 필요)
  • 토픽 모델링: Text Topic 노드를 활용해 LSA 기반으로 주제 추출
  • 텍스트 분류: Text Rule Builder 노드 또는 Decision Tree와 함께 사용 (예: 긍정/부정 분류)

5. SAS 코드 예시 (텍스트 처리)

proc textmine data=mydata;
   doc_id id;
   textvar 내용;
   parse;
   filter;
   topics numtopics=5;
run;

위 코드는 SAS Viya 환경에서 텍스트 파싱 → 필터링 → 5개 주제 추출까지 수행합니다.

6. SAS Viya 환경 (SAS Visual Text Analytics)

  • 웹 기반 GUI 제공
  • 머신러닝 기반 개체명 인식, 감성 분석 모델 생성
  • 지식 그래프 생성 가능
  • REST API를 통한 파이프라인 자동화 지원

📊 사용 예시 요약

목표 SAS에서 사용 가능한 기능
감성 분석 Rule-based 또는 머신러닝 기반 분류
토픽 모델링 LSA 기반 또는 NMF 방식
문서 분류 Decision Tree, SVM 연동
키워드 분석 단어 빈도, TF-IDF, SVD 시각화
문서 클러스터링 K-means, 계층적 군집 분석

📝 SAS Text Miner vs SAS VTA 비교

항목 SAS Text Miner SAS Visual Text Analytics (VTA)
플랫폼 Enterprise Miner SAS Viya (웹 기반)
방식 드래그 & 드롭 시각적 인터페이스
분석기능 기본 토픽/분류 감성 분석, 개체명 인식, 지식 모델
자동화 제한적 Python/R API 또는 REST API 가능
추천 사용처 고전적인 분석 환경 최신 클라우드 대시보드 환경

✅ 마무리

SAS는 강력한 텍스트 분석 도구이며, 특히 비즈니스 인텔리전스, 금융, 의료 데이터 분야에서 많이 사용됩니다.

  • GUI 중심의 정형화된 분석이 필요하다면 SAS Text Miner
  • 머신러닝 기반 고급 분석과 자동화가 필요하다면 SAS Viya + VTA

0 댓글