Stats & AI tech blog - '일단 시도함'
[통계] PSM: Propensity Score Matching (성향점수매칭) 본문
[통계] PSM: Propensity Score Matching (성향점수매칭)
justdoit ok? 2023. 12. 4. 16:581. 성향점수매칭(PSM) 이란?
무작위 대조군 연구(RCT)가 불가능한 관찰 연구에서 실험군과 대조군 그룹 간 비교를 위해 사용되는 통계적 기법이다.
표본 추출 과정에서 적절한 랜덤화가 이루어지지 않았을 경우에는 특정 공변량(covariate)에 의해 통계 분석 결과가 왜곡되는 선택 편향(selection bias)이 발생할 수 있다. 이런 공변량들은 실험군과 대조군 사이의 결과 차이를 규명하는데 혼란 변수로 작용하게 된다.
PSM은 주요 관심인 독립변수가 종속변수에 미치는 영향을 평가하고자 할 때, 그 관계에 영향을 미칠 수 있는 공변량의 편향(bias)를 줄이고자 사용되는 통계기법이다.
2. PSM 절차
1) 성향 점수 계산
처치 변수를 종속변수로, 혼란 변수을 독립변수로 두고 로지스틱 회귀 분석 등의 통계적 기법을 통해 각 개체가 처치를 받을 확률(=성향 점수)를 계산한다.
2) 매칭
계산한 성향 점수를 기반으로 실험군의 개체와 유사한 성향 점수를 가지는 대조군의 개체를 매칭한다.
매칭은 아래와 같이 다양한 방법으로 수행될 수 있다.
- 가장 가까운 이웃 매칭
: 각 변수에 대해 매칭 전후의 표준화 평균 차이(Standardized Mean Difference, SMD)를 계산하여 - 칼리퍼 매칭
: 성향 점수 차이가 특정 범위(칼리퍼) 이내인 경우에만 매칭합니다. - 성향 점수 범위 매칭
: 성향 점수를 일정한 구간으로 나누어 매칭합니다.
3) 매칭 평가 및 균형 검증
매칭이 끝났다면, 각 변수에 대해 매칭 전후의 표준화 평균 차이(Standardized Mean Difference, SMD)를 계산하여 실험군과 대조군의 혼란 변수의 분포가 유사한지 확인한다.
4) 효과 추정
매칭된 데이터를 사용해서 처치 변수의 효과를 추정한다. 일반적으로 평균 처리 효과(Average Treatment Effect, ATE)를 통해 매칭된 실험군과 대조군 간의 결과 변수의 평균 차이를 계산한다.
3. PSM 장단점
PSM을 통해 관찰 연구에서 발생할 수 있는 혼란 변수의 영향을 통제할 수 있고, 매칭을 통해 유사한 개체들을 비교함으로써 연구의 정확성을 높일 수 있다.
다만, 성향 점수를 계산하는 모델의 정확성에 따라 결과가 달라질 수 있고, 매칭 과정에서 데이터 손실이 발생할 수 있다는 단점이 존재한다.
4. PSM 분석 예제 Rcode
2024.11.12 - [Programming/R] - [R] PSM, Propensity Score Matching (성향점수매칭)
'Statistics & AI > Propensity Score Analysis' 카테고리의 다른 글
[통계] IPTW, Inverse Probability of Treatment Weighting (역확률가중치) (0) | 2024.11.07 |
---|