Stats & AI tech blog - '일단 시도함'

[통계] Survival Analysis (3) - Cox Proportional Hazards Model (콕스비례위험모형) 본문

Statistics & AI/Survival Analysis

[통계] Survival Analysis (3) - Cox Proportional Hazards Model (콕스비례위험모형)

justdoit ok? 2024. 3. 21. 14:06

 

1. 콕스비례위험모형이란?

위험함수에 공변량에 대한 회귀식을 포함하는 모형으로 여러 설명 변수들이 생존 시간에 미치는 영향을 평가하는데 사용된다. 생존시간 분포에 대한 가정이 필요없고, 추정된 회귀계수로부터 위험비(HR)를 구할 수 있어 널리 사용된다.

 

콕스비례위험모형은 대표적인 준모수적 방법을 사용하는 모형이다.
아래 모형식에서 자세히 살펴보겠지만, Cox모형식은 비모수적 부분과 모수적 부분으로 구성되어있다.

 

 

2. Cox 모형 가정

  1. 비례위험가정 : 각 설명 변수들이 위험률에 미치는 영향이 시간에 따라 변하지 않는다 
  2. 선형성 가정 : 설명 변수와 로그 위험률 사이에 선형 관계가 있다.
  3. 독립성 가정

 

3. Cox 모형식

설명변수 $X = (X_1, X_2,,,X_p)$가 있는 콕스비례위험모형의 t시점에서의 위험함수는

 

$$h(t|X) = h_0(t) exp(\beta_1X_1 + \beta_2X_2 + ... + \beta_pX_p)$$

 

  • $h(t|X)$ : 시간 $t$에서 설명 변수 $X$에 대한 조건부 위험률

  • $h_0(t)$ : 시간 $t$에서의 기저 위험률
    기저위험함수라고 하며 시간 t에 대한 함수이다. 즉, 공변량 X를 고려하지 않는다.
    기저위험함수는 특정 분포를 가정하지 않으므로 비모수적인 부분이다. 이러한 특성 덕에 Cox모형은 다양한 데이터에 유연하게 적용될 수 있다는 장점이 있다.

  • $exp(\beta_1X_1 + \beta_2X_2 + ... + \beta_pX_p)$ : 선형 예측자
    공변량 $X$에 대한 선형 결합으로 시간에 의존하지 않는다. 
    Cox모형의 모수적인 부분으로 비례위험가정과 선형성 가정은 선형 예측자에 대한 가정이다.
    $X$가 시간에 따라 변화하는 경우도 있는데 (나이, 몸무게 등) 이런 경우는 시간 의존 공변량이라고 따로 정의한다.

4. HR (Hazard Ratio)

위험비는 두 그룹 간의 사건 발생률을 비교하는 지표이다. Cox모형에서 HR을 통해 설명 변수가 생존 시간에 미치는 영향을 해석할 수 있다.

\[HR = \frac{h_0(t) \exp(\beta^T x_1)}{h_0(t) \exp(\beta^T x_2)} = \exp(\beta^T (x_1 - x_2))\]

 

  • HR > 1: 설명 변수 $X$의 값이 증가할수록 사건 발생 위험이 증가함. HR = 2인 경우는 사건 발생 위험이 두 배로 증가함을 뜻함.
  • HR < 1: 설명 변수 $X$의 값이 증가할수록 사건 발생 위험이 감소함. HR = 0.5인 경우는 사건 발생 위험이 절반으로 감소함을 뜻함.
  • HR = 1: 설명 변수 $X$의 값이 사건 발생 위험에 영향을 미치지 않음을 의미함.

 

 

위험비를 계산하기 위해서는 회귀 계수 $\beta$를 추정하는 방법에 대해 알아보자.

 

5. Estimation of $\beta$

Cox PH에서 parameter $\beta$는 MLE방법으로 추정된다.

 

  • 부분우도 함수 (Partial Likelihood function)
    Cox 모형의 독특한 점은 전체 생존 데이터의 우도 함수 대신, 부분우도 함수(partial likelihood)를 사용하는 것이다.
    생존 시간 데이터가 비모수적 기저 위험률을 포함하므로, 기저 위험률을 추정하지 않고도 회귀 계수를 추정할 수 있게 해준다.
    \[L(\beta) = \prod_{i=1}^{D} \frac{\exp(\beta^T X_i)}{\sum_{j \in R(t_i)} \exp(\beta^T X_j)}\]
    - \(D\) : 관찰된 이벤트(사건)의 총 개수
    - \(t_i\) : 사건이 발생한 시간
    - \(X_i\) : \(i\)번째 관찰에서의 설명 변수 벡터
    - \(R(t_i)\) : \(t_i\)에서 사건이 발생할 위험이 있는 관찰들의 집합(위험집합)
    - \(\beta\) : 추정하려는 회귀 계수 벡터

  • 로그 부분우도 함수
    계산의 편의성을 위해 부분우도 함수의 로그를 취해서 사용한다.

    \[\ell(\beta) = \sum_{i=1}^{D} \left( \beta^T X_i - \log \left( \sum_{j \in R(t_i)} \exp(\beta^T X_j) \right) \right)\]

  • 최대우도추정법 (MLE)
    Cox 모형의 회귀 계수를 추정하기 위해 로그 부분우도 함수를 최대화한다. 

정리하자면 Cox 비례위험 모형은 부분우도 함수를 최대화하는 과정으로 파라미터 $\beta$를 추정한다.
이 방법으로 기저 위험률을 추정하지 않고도 회귀 계수를 추정할 수 있어 다양한 데이터에 Cox모형을 적용할 수 있게 한다. 추정된 파라미터를 활용하여 HR을 계산할 수 있고, HR을 통해 설명 변수가 생존 시간에 미치는 영향을 쉽게 해석할 수 있다.

 

 

6. Cox 모형 강점

  1. 반응 변수 분포에 대한 가정이 없다. (준모수성)
  2. 0부터 무한대의 값을 가지는 HR을 통해 직관적인 해석이 가능하다. (해석의 용이성)
  3. 생존시간 및 중도탈락에 대한 정보를 포함하므로 로지스틱회귀보다 선호된다. (중도탈락처리)

 

 

* 생존분석이란?

2024.03.21 - [Statistics] - [통계] Survival Analysis (1)

* Kaplan-Meier 추정, Log-rank test

2024.03.21 - [Statistics] - [통계] Survival Analysis (2) - Kaplan-Meier 생존곡선과 로그순위검정

* 생존 분석 with R

2024.03.27 - [Programming/R] - [R] Survival Analysis (Kaplan-Meier, Log-rank, Cox PH)