성향점수매칭 (Propensity Score Matching, PSM)

Propensity Score Matching (PSM) 완전 정복

관찰 데이터를 이용한 인과 추론에서 가장 많이 사용되는 방법 중 하나가 바로 Propensity Score Matching (PSM)입니다. 이 글에서는 PSM의 개념, 과정, 장단점 등을 쉽게 설명해 드릴게요.

1. 왜 PSM이 필요한가?

무작위 실험(RCT)은 이상적이지만 실제로는 적용하기 어려운 경우가 많습니다. 관찰 연구에서는 처치(treatment)와 비처치(control) 집단이 유사하지 않아 선택 편향(selection bias)이 생깁니다. PSM은 이 편향을 줄이기 위해 개발된 방법입니다.

2. Propensity Score란?

Propensity Score는 개체가 처치를 받을 확률을 의미하며, 주어진 공변량을 바탕으로 계산됩니다.

P(Treatment = 1 | X)
여기서 X는 나이, 성별, 건강 상태 등의 변수입니다.

3. PSM의 절차

성향 점수 추정 – 로지스틱 회귀 등으로 개체의 처치 확률을 추정
매칭 – 비슷한 점수를 가진 처치/비처치 집단을 짝지음
분석 – 매칭된 샘플로 처치 효과 추정

매칭 방법 예시

1:1 Nearest Neighbor Matching
Caliper Matching (거리 제한)
Kernel Matching
Mahalanobis Matching

4. PSM의 가정

Strong Ignorability: 공변량으로 모든 교란 요인을 설명할 수 있어야 함
Common Support: 처치군과 대조군의 점수 분포가 겹쳐야 함

5. 장점

관찰 자료에서도 인과 추론 가능
고차원의 공변량을 하나의 점수로 요약

6. 한계

관측되지 않은 변수는 통제 불가
성향 점수 모델이 잘못되면 오류 발생
매칭 후 많은 데이터가 버려질 수 있음

💡 팁: 매칭 후에는 꼭 공변량 균형 진단을 통해 두 집단이 유사한지 확인해야 합니다!

7. 간단한 예시

문제: 금연 프로그램(treatment)이 6개월 후 금연 성공에 영향을 미치는가?
공변량: 나이, 성별, 건강 관심도 등
방법: 로지스틱 회귀로 성향 점수 추정 → 유사한 개체들 매칭 → 금연 성공률 비교

마무리

Propensity Score Matching은 비실험적 자료에서도 인과 효과를 추정할 수 있는 유용한 도구입니다. 하지만 항상 가정과 진단 절차를 철저히 확인해야 올바른 결론을 도출할 수 있습니다.

성향점수매칭 (Propensity Score Matching, PSM)

1. 왜 PSM이 필요한가?

2. Propensity Score란?

3. PSM의 절차

매칭 방법 예시

4. PSM의 가정

5. 장점

6. 한계

7. 간단한 예시

마무리

0 댓글

연구방법

통계분석

인기 게시글

체계적고찰과 메타분석 이란?

[다중회귀분석] 다중공선성 SAS Syntax

[체계적 고찰] PICO란?

[체계적 고찰] PROSPERO 작성 절차

[체계적 고찰] 작성 방법과 절차

키워드

질문 및 소통