Stats & AI tech blog - '일단 시도함'

[통계] Survival Analysis (1) 본문

Statistics & AI/Survival Analysis

[통계] Survival Analysis (1)

justdoit ok? 2024. 3. 21. 10:48

 

1. 생존 분석(survival analysis)이란?

어떤 '사건'이 일어날 때까지의 '시간'을 관심있는 반응변수로 두고 분석하는 통계 기법이다.

'사건'이란 사망, 질병 발생, 재발, 회복 또는 일어날 수 있는 관심있는 경험이 될 수 있다.

'시간'은 한 개인을 추적했을 때, 사건이 일어날 때까지 걸린 기간을 의미한다.

 

생존분석에서 시간 변수를 '생존시간'이라고 표현하는 경우가 많고, 사건의 발생을 '실패'로 표현하기도 한다.

하지만 경우에 따라 생존 시간이 '검사 이후 진단까지 경과된 시간'처럼 긍정적으로 해석되는 경우도 있다.

 

 

2. 용어

  • 중도 절단 (censoring)
    아래의 경우처럼 생존 시간에 대한 어느 정도의 정보는 가지고 있지만 정확한 생존시간을 모를 때 발생한다.

     - 연구 종료까지 사건이 발생하지 않은 경우
     - 연구 기간 동안 추적에 실패한 경우
     - 환자가 사망 또는 다른 이유로 탈락한 경우
     - 사건이 발생했지만 정확한 발생 시간을 알 수 없는 경우


  • 생존함수 (survival function)
    생존함수는 특정 시간 t보다 오래 생존할 확률을 뜻한다.
    생존 데이터에서 각 시간별로 생존확률을 계산하는데 결정적인 함수이며 아래와 같은 특징을 가진다.

     - 생존함수는 증가하지 않는다. $t$가 증가함에 따라 감소한다.
     - $t=0$일 때, 생존함수 $S(t=0) = 1$이다.
     - $t= \infty$ 일 때, 생존함수 $S(t= \infty) = 0$이다.


  • 위험함수 (hazard function)
    생존함수가 특정 시점까지 누적 생존률을 나타낸다면, 위험함수는 t 시점 이후의 특정 시점에서 순간적인 실패율을 뜻한다. 어떤 사람이 특정 시간 $t$이상 생존하였다고 가정할 때 $t$로부터 아주 짧은 시간($\Delta t$)안에 실패할 확률을 $\Delta t$ 로 나눈것이다.
    $$h(t) = lim_{\Delta t \to 0} \frac{P(t<T<t+\Delta t|T>t)}{\Delta t}$$
    위험함수 중 $lim_{\Delta t \to 0} $부분은 시간간격이 0에 가까워질 때 시간 $t$에서의 순간 실패가능성을 말한다.

     - 위험함수는 항상 음수가 아닌 값을 갖는다.
     - 확률이 아니라 비율이므로 0부터 무한대의 값을 가질 수 있다.
     - 위험함수를 통해 생존데이터에 적합한 모형(지수분포, 와이블분포, 로그정규분포 등)을 찾을 수 있다.


  • 위험비율 (HR, hazard ratio)
    위험비율은 두 개 이상의 그룹 간의 위험 함수를 비교하는 데 사용한다.
    보통 특정 조건이나 처리에 따라 그룹을 나누고, 각 그룹의 위험 함수를 비교하여 위험비율을 계산한다.



3. 생존분석의 목표

  1. 생존함수와 위험함수 추정
    시간에 따른 생존곡선 추정을 위해 Kaplan-Meier 추정치를 사용한다.
  2. 생존함수와 위험함수 비교
    로그순위검정을 통해 그룹 간 생존함수를 비교한다.
  3. 설명변수들과 생존시간의 관계 평가
    변수 간 관계 평가를 위해 보통 Cox비례위험모형과 같은 수학적 모형 적합 과정이 필요하다.

 

 

* Kaplan-Meier 추정, Log-rank test

2024.03.21 - [Statistics] - [통계] Survival Analysis (2) - Kaplan-Meier 생존곡선과 로그순위검정

* Cox 비례위험모형

2024.03.21 - [Statistics] - [통계] Cox Proportional Hazards Model (콕스비례위험모형)

* 생존 분석 with R

2024.03.27 - [Programming/R] - [R] Survival Analysis (Kaplan-Meier, Log-rank, Cox PH)

 

 

 

 

 

* Reference

 - Survival Analysis with R for medical personnel