Stats & AI tech blog - '일단 시도함'

[통계] 모형별 신뢰구간 계산 방법 (PLS, Wald, Score) 본문

Statistics & AI/Basic Concept

[통계] 모형별 신뢰구간 계산 방법 (PLS, Wald, Score)

justdoit ok? 2024. 8. 20. 16:58

 

 

오늘은 신뢰구간을 계산하는 여러 방법에 대해 알아보도록 하겠다.
 
결과 해석에서 신뢰구간은 점 추정치로만으로 파악할 수 없는 정보(추정된 효과 크기, 방향, 불확실성 등)를 포함하기 때문에 매우 중요한데, 어떤 데이터와 모델을 쓰느냐에 따라 계산 방법이 다르게 적용될 수 있다. 
 
이번 포스팅에서는 주요한 신뢰구간 계산 방법인 Wlad, PLS, Score 방법에 대해 설명하겠다.

 

1. Wald 신뢰구간

일반적으로 알고 있는 계산 방법이다. Wald 신뢰구간은 추정된 모수에 대해 정규 분포를 가정하고 계산된다.
주로 단순한 모델에서의 신뢰구간을 계산할 때 사용되고, 모수의 표준오차(SE)를 활용한다.

  • 계산 방법
         \[
         \hat{\theta} \pm z_{\alpha/2} \times SE(\hat{\theta})
         \]
  • 특징
    Wald 신뢰구간은 계산이 간단하지만, 정규 분포를 따르지 않거나 표본 크기가 작을 때는 부정확할 수 있다.

  • 사용 모델
    일반적으로 선형 회귀, 로지스틱 회귀 같은 모델에서 자주 사용된다.

 

2. PLS (Profile Likelihood Score) 신뢰구간

PLS 신뢰구간은 주어진 모수를 제외한 나머지 모수들을 최적화하여 생성된 가능도 함수(Likelihood Function)를 사용하는 방법이다. 주로 비정규 분포를 따르거나 복잡한 모델에서 사용된다.

  • 계산 방법
         1. 특정 모수에 대해 가능도 함수를 계산.
         2. 가능도 함수의 로그를 취한 후, 다른 모수들에 대해 최적화된 값 계산.
         3. 그 후 로그-가능도 값이 특정 임계값 이하가 되는 범위를 신뢰구간으로 설정.

  • 특징
    모수가 복잡한 함수의 형태를 가질 때 유리하고, 비대칭/비정규 분포에서도 정확한 신뢰구간 계산 가능하다.

  • 사용 모델
    비정규 분포의 일반화 선형 모델이나 생존 분석 모델 같은 복잡한 모델에서 사용된다.


3. Score 신뢰구간

Score 신뢰구간은 Score Test에서 파생된 방법으로, 주어진 모수가 진짜 모수와 얼마나 가까운지 평가하는 데 사용된다. 이 방법은 데이터의 분산에 따라 신뢰구간을 조정하는 방식이다.

  • 계산 방법
         1. 특정 모수에 대해 Score(=gradient, 우도함수의 1차 도함수)를 계산.
         2. 이 값을 기준으로 분산을 추정하고, 이를 바탕으로 신뢰구간을 설정.

  • 특징
    Wald 방법이 부정확할 수 있는 경우 대안으로 사용될 수 있다. 주로 이분산성이나 모델의 비선형성이 있는 경우에 적합하다.

  • 사용 모델
    이항 로지스틱 회귀, 혼합 효과 모형 등의 비대칭성, 비선형성을 처리하기 위해 사용된다.

 
 
여기까지 신뢰구간을 계산하는 세 가지 방법(Wald, PLS, Score)에 대해 알아보았다.
 
데이터와 모형의 특징에 따라 적절한 신뢰구간을 사용할 수 있도록 하고, 같은 모형이라도 통계 프로그램에 따라 디폴트 산출 방법이 다를 수 있다는 점 참고하자.
(예를 들어 로지스틱 회귀 모형에 대한 신뢰구간을 SPSS는 Wald 기반, R의 confint 함수는 PLS 기반으로 자동 산출한다).