본문 바로가기
About Statistics (통계)

ROC curve 와 AUC

by 용스토리랜드 2022. 3. 30.

 


Confusion Matrix(혼동 행렬; 오차 행렬)

 

* 뒤에 붙는 Positive , Negative 는 예측의 양성/음성 여부를 의미한다. 

  • TP (True Positive) : 예측을 양성으로 하였고 실제로도 양성인 경우
    • ex) 암 환자가 암 환자로 판정나는 경우
  • FP (False Positive) : 예측을 양성으로 하였지만 실제로는 음성인 경우
    • ex) 암 으로 진단하였지만 암 환자가 아닌 경우
  • FN (False Negative) : 예측을 음성으로 하였지만 실제로는 양성인 경우 
    • ex) 암 환자가 아니라고 예측을 하였지만 실제로는 암 환자인 경우 ( 암 의 경우 이런 경우가 가장 위험하다. 왜냐하면 이 환자는 실제로는 암이 생겼지만 오진하여 암을 키울 것이기 때문이다. )
  • TN (True Negative) : 예측을 음성으로 하였고 실제로도 음성인 경우
    • 암 환자가 아니라고 예측하였고 실제로도 건강한 경우

 

따라서 TP 와 TN (True) 인 것들이 많고 FP 와 FN (Fasle) 이 적여야 좋은 성능을 가진 분류기라고 할 수 있다. 


TPR 과 FPR

  • TPR (True Positive Rate)
    • 실제 양성인 클래스에 대해 양성으로 올바르게 예측하는 비율 (Sensitivity;Recall)
    • 1인 케이스에 대해 1로 바르게 예측하는 비율
    • TPR = TP / (TP+FN; 실제 양성)  
    • TP 가 많고 FN 이 적을수록 TPR 은 1에 가까워집니다.
  • FPR(Fasle Positive Rate)
    • 전체 실제 음성 샘플 중에 양성으로 잘못 예측된 것의 비율을 의미한다.
    • 0인 케이스에 대해 1로 틀리게 예측하는 비율
    • 1 - Specificity
    • FPR = FP / (FP + TN)
    • FP 가 적고 TN 이 많을 수록 FPR 은 0에 가까워집니다.
  • TPR 은 1에 가까울수록 좋고,,, FPR 은 0에 가까울수록 좋습니다.
  • Sensitivity 와 Specificity 는 반비례한다 
  • Sensitivity(TPR) 와 1-Specificity (FPR) 는 비례한다. 

Decision Threshold (결정 경계 ; cut off)

이진 분류기의 경우 0과 1 사이의 값을 산출해냅니다. 즉 양성 클래스일 확률입니다. 그 값이 얼마 이상일 때 양성으로 판정을 내릴지에 대한 기준값이 필요합니다. 그 기준값이 바로 Decision threshold 입니다. 그냥 단순히 0.5로 설정할 수도 있지만, 필요에 따라 Decision threshold 를 높이거나 낮추어야 할 경우가 발생합니다. 

 

Decision threshold 가 0에 가까워질수록 TPR 즉, 양성으로 예측하는 것이 많아진다. 반대로 1에 가까워질수록 양성으로 예측을 보수적으로 하게된다.


ROC Curve | AUC (Area Under the ROC Curve)

 

ROC (Receiver Operating Characteristic) curve 란 FPR(False Positive Rate) 와 TPR(True Positive Rate) 를 각각 x, y 축으로 놓은 그래프이다.

 

모델의 판단 기준을 연속적으로 바꾸면서 측정했을 때 FPR 과 TPR 의 변화를 나타낸 것으로, (0,0) , (1,1) 을 잇는 곡선이다. 

 

X 축 방향으로 진행하면서 Decision Threshold 는 1.0 , 0.95 , 0.90 ...... 0.15 , 0.10 , ... 0.0 의 기준으로 TPR 과 FPR 의 값을 결정해줍니다. 

 

앞서 언급했듯이 TPR 은 높을 수록 좋고 FPR 은 낮을 수록 좋습니다. decision threshold 가 커지면 (1에 가까우면) TPR 이든 FPR 이든 작아지고 0에 가까우면 커지게 됩니다. 따라서 FPR 의 값이 증가할 때 TPR 이 더욱 급격하게 증가할때, (FPR 의 값이 감소할 때 TPR이 더욱 천천이 작아진다면) 좋은 성능을 가진 이진분류기라고 볼 수 있습니다. 이런 경우 곡선 아래의 넓이 (AUC) 가 1에 가까워질 것입니다. 

 

*AUC : ROC curve의 밑면적을 말한다. 즉, 성능 평가에 있어서 수치적인 기준이 될 수 있는 값으로, 1에 가까울수록 그래프가 좌상단에 근접하게 되므로 좋은 모델이라고 할 수 있다.

반응형