목록생존분석 (3)
Stats & AI tech blog - '일단 시도함'
이전 포스팅에서 생존 분석의 개념, Kaplan-Meier 추정과 Log-rank test 그리고 Cox 비례위험모형까지 알아보았다. 이번 포스팅에서는 R에서 생존 분석을 수행하는 방법에 대해 알아보겠다. 분석 절차는 아래와 같다.1. Kaplan-Meier 생존 곡선 2. Log-rank Test3. Cox 비례 위험 모형 1. Kaplan-Meier 생존 곡선 먼저 'survival' 패키지의 survfit() 함수를 사용하여 카플란마이어 생존 곡선을 추정한다.survfit의 종속변수는 Surv(시간, 발생여부) 형식으로 넣어주고, 독립변수로는 group을 넣어 주어 각 그룹의 시간에 따른 발생 확률의 변화를 알아본다. surv_obj 'survminer' 패키지의 ggsurvplot() 함수를..
1. Kaplan-Meier 생존곡선Kaplan-Meier Estimation을 통해 시간에 따른 생존률을 확인할 수 있다. 집단 간 생존곡선을 비교하기에 용이하다.추정 방법은 아래 순서로 진행된다. 자료를 관찰기간 순서대로 정렬한다.사건이 발생한 시점의 구간생존률 $\hat{P}(t)$를 구한다.$$\hat{P}(t) = \frac{t시점에서의 생존자 수}{t시점까지의 관찰대상자 수}$$구간생존률로부터 누적생존률 $\hat{S}(t)$를 구한다.$$\hat{S}(t) = \hat{S}(t-1) \times \hat{P}(t)$$ * 누적생존률 $\hat{S}(t)$를 구하는데는 조건부확률 개념이 들어간다.예를 들어, 여섯번째 시점에서의 누적생존률 $\hat{S}(T=6)$은$$\hat{S}(T=6) ..
1. 생존 분석(survival analysis)이란?어떤 '사건'이 일어날 때까지의 '시간'을 관심있는 반응변수로 두고 분석하는 통계 기법이다.'사건'이란 사망, 질병 발생, 재발, 회복 또는 일어날 수 있는 관심있는 경험이 될 수 있다.'시간'은 한 개인을 추적했을 때, 사건이 일어날 때까지 걸린 기간을 의미한다. 생존분석에서 시간 변수를 '생존시간'이라고 표현하는 경우가 많고, 사건의 발생을 '실패'로 표현하기도 한다.하지만 경우에 따라 생존 시간이 '검사 이후 진단까지 경과된 시간'처럼 긍정적으로 해석되는 경우도 있다. 2. 용어중도 절단 (censoring)아래의 경우처럼 생존 시간에 대한 어느 정도의 정보는 가지고 있지만 정확한 생존시간을 모를 때 발생한다. - 연구 종료까지 사건이 발생하지..