성향점수매칭 (Propensity Score Matching, PSM)

Propensity Score Matching (PSM) 완전 정복

관찰 데이터를 이용한 인과 추론에서 가장 많이 사용되는 방법 중 하나가 바로 Propensity Score Matching (PSM)입니다. 이 글에서는 PSM의 개념, 과정, 장단점 등을 쉽게 설명해 드릴게요.


1. 왜 PSM이 필요한가?

무작위 실험(RCT)은 이상적이지만 실제로는 적용하기 어려운 경우가 많습니다. 관찰 연구에서는 처치(treatment)와 비처치(control) 집단이 유사하지 않아 선택 편향(selection bias)이 생깁니다. PSM은 이 편향을 줄이기 위해 개발된 방법입니다.


2. Propensity Score란?

Propensity Score는 개체가 처치를 받을 확률을 의미하며, 주어진 공변량을 바탕으로 계산됩니다.

P(Treatment = 1 | X)
여기서 X는 나이, 성별, 건강 상태 등의 변수입니다.


3. PSM의 절차

  1. 성향 점수 추정 – 로지스틱 회귀 등으로 개체의 처치 확률을 추정
  2. 매칭 – 비슷한 점수를 가진 처치/비처치 집단을 짝지음
  3. 분석 – 매칭된 샘플로 처치 효과 추정

매칭 방법 예시

  • 1:1 Nearest Neighbor Matching
  • Caliper Matching (거리 제한)
  • Kernel Matching
  • Mahalanobis Matching

4. PSM의 가정

  • Strong Ignorability: 공변량으로 모든 교란 요인을 설명할 수 있어야 함
  • Common Support: 처치군과 대조군의 점수 분포가 겹쳐야 함

5. 장점

  • 관찰 자료에서도 인과 추론 가능
  • 고차원의 공변량을 하나의 점수로 요약

6. 한계

  • 관측되지 않은 변수는 통제 불가
  • 성향 점수 모델이 잘못되면 오류 발생
  • 매칭 후 많은 데이터가 버려질 수 있음
💡 팁: 매칭 후에는 꼭 공변량 균형 진단을 통해 두 집단이 유사한지 확인해야 합니다!

7. 간단한 예시

문제: 금연 프로그램(treatment)이 6개월 후 금연 성공에 영향을 미치는가?
공변량: 나이, 성별, 건강 관심도 등
방법: 로지스틱 회귀로 성향 점수 추정 → 유사한 개체들 매칭 → 금연 성공률 비교


마무리

Propensity Score Matching은 비실험적 자료에서도 인과 효과를 추정할 수 있는 유용한 도구입니다. 하지만 항상 가정과 진단 절차를 철저히 확인해야 올바른 결론을 도출할 수 있습니다.

0 댓글