Stats & AI tech blog - '일단 시도함'

[통계] ROC Analysis (ROC curve, AUC, Optimal cut-off value) 본문

Statistics & AI/Classification

[통계] ROC Analysis (ROC curve, AUC, Optimal cut-off value)

justdoit ok? 2024. 1. 15. 14:38

1. ROC 분석이란?

ROC 분석은 이진 분류 모델의 성능을 평가하는 시각적인 방법이다. ROC 곡선은 모델의 민감도와 1-특이도를 다양한 cut-off value에서 나타낸 그래프이며, 이 곡선을 통해 모델의 성능을 시각적으로 평가할 수 있다.

 

 

2. ROC curve

이진분류기의 역치(Threshold)에 따른 성능을 그래프로 한번에 나타낸 것이다. 민감도 (TPR) 1-특이도 (FPR)을 이용하여 표현한다.

  • 양성률 (TPR, True Positive Rate) = 민감도(Sesitivity) : 양성을 양성으로 맞게 진단할 확률
  • 위양성률 (FPR, False Positive Rate) = 1-특이도(Specificity) : 음성을 양성으로 잘못 진단할 확률

 

일반적으로 진단 모델의 성능을 높이기 위해 양성률(TPR)을 높이고자 하지만, 긍정적 지표인 양성률(TPR) 은 부정적 지표인 위양성률(FPR)과 서로 비례 관계이다.

예를 들어, 성급한 진단을 내리는 의사일수록 작은 증상에도 양성으로 진단하기 때문에 양성을 양성으로 진단할 확률(TPR)이 높아지고, 음성을 양성으로 진단할 확률(FPR) 또한 높아지게 된다.

 

우리는 TPR과 FPR을 한눈에 볼 수 있는 ROC curve를 통해 적절한 진단 기준을 결정할 수 있다.

 

출처:https://medium.com/@ilyurek/roc-curve-and-auc-evaluating-model-performance-c2178008b02

 

 

 

 

3. AUC

AUC는 ROC curve의 아래 쪽 면적을 의미하며 진단 정확도를 평가하는 지표이다.

일반적으로 AUC가 0.7보다 높을 경우 진단 모델의 정확도가 어느정도 있다고 평가한다.

 

AUC > 0.9 : Excellent

0.9 > AUC > 0.8 : Good

0.8 > AUC > 0.7 : Fair

0.7 > AUC : Poor

 

 

4. Optimal cut-off value

자료를 분류하는 최적의 절단점을 뜻하며 cut-point를 선택하기 위한 여러 접근법이 존재한다

 

  • Youden index (J)
    : 가장 일반적으로 사용하는 방법으로 민감도와 특이도의 합에 1을 빼준 결과이다.
    Youden index (J)는 0과 1사이의 값으로 계산되며, 값이 1에 가까울 수록 잘 분류되었다고 볼 수 있다.

    연속형 자료의 모든 값을 cut-off point로 두고 이분형으로 나누어가며 Youden index (J)를 계산하고 그 값이 최대가 되는 점을 Optimal cut-off point로 결정하게 된다.
    AUC는 Youden index (J)와 비례하는 값이므로, AUC가 최대가 되는 점을 찾는 방법과 같은 cut-off point를 가진다.

 

  • point closest-to-(0,1) corner in the ROC plane (ER)
    : (0,1)과 가장 가까운 Euclidean거리를 가지는 ROC curve위의 점을 cut-off point로 설정하는 방법이다.

 

  • 확장된 Youden index
    : 결과 변수가 이분형이 아니라 순위형 (경증, 중등증, 중증)인 경우에 사용하는 방법이다.
    확장된 Youden index를 이용하여 경증 군과 중등증 군을 비교하는 최적의 cut-off point와 중등증 군과 중증 군을 비교하는 최적의 cut-off point를 구할 수 있다.