Confusion Matrix(혼동 행렬; 오차 행렬)

* 뒤에 붙는 Positive , Negative 는 예측의 양성/음성 여부를 의미한다.
- TP (True Positive) : 예측을 양성으로 하였고 실제로도 양성인 경우
- ex) 암 환자가 암 환자로 판정나는 경우
- FP (False Positive) : 예측을 양성으로 하였지만 실제로는 음성인 경우
- ex) 암 으로 진단하였지만 암 환자가 아닌 경우
- FN (False Negative) : 예측을 음성으로 하였지만 실제로는 양성인 경우
- ex) 암 환자가 아니라고 예측을 하였지만 실제로는 암 환자인 경우 ( 암 의 경우 이런 경우가 가장 위험하다. 왜냐하면 이 환자는 실제로는 암이 생겼지만 오진하여 암을 키울 것이기 때문이다. )
- TN (True Negative) : 예측을 음성으로 하였고 실제로도 음성인 경우
- 암 환자가 아니라고 예측하였고 실제로도 건강한 경우
따라서 TP 와 TN (True) 인 것들이 많고 FP 와 FN (Fasle) 이 적여야 좋은 성능을 가진 분류기라고 할 수 있다.
TPR 과 FPR
- TPR (True Positive Rate)
- 실제 양성인 클래스에 대해 양성으로 올바르게 예측하는 비율 (Sensitivity;Recall)
- 1인 케이스에 대해 1로 바르게 예측하는 비율
- TPR = TP / (TP+FN; 실제 양성)
- TP 가 많고 FN 이 적을수록 TPR 은 1에 가까워집니다.
- FPR(Fasle Positive Rate)
- 전체 실제 음성 샘플 중에 양성으로 잘못 예측된 것의 비율을 의미한다.
- 0인 케이스에 대해 1로 틀리게 예측하는 비율
- 1 - Specificity
- FPR = FP / (FP + TN)
- FP 가 적고 TN 이 많을 수록 FPR 은 0에 가까워집니다.
- TPR 은 1에 가까울수록 좋고,,, FPR 은 0에 가까울수록 좋습니다.
- Sensitivity 와 Specificity 는 반비례한다
- Sensitivity(TPR) 와 1-Specificity (FPR) 는 비례한다.
Decision Threshold (결정 경계 ; cut off)
이진 분류기의 경우 0과 1 사이의 값을 산출해냅니다. 즉 양성 클래스일 확률입니다. 그 값이 얼마 이상일 때 양성으로 판정을 내릴지에 대한 기준값이 필요합니다. 그 기준값이 바로 Decision threshold 입니다. 그냥 단순히 0.5로 설정할 수도 있지만, 필요에 따라 Decision threshold 를 높이거나 낮추어야 할 경우가 발생합니다.
Decision threshold 가 0에 가까워질수록 TPR 즉, 양성으로 예측하는 것이 많아진다. 반대로 1에 가까워질수록 양성으로 예측을 보수적으로 하게된다.
ROC Curve | AUC (Area Under the ROC Curve)
ROC (Receiver Operating Characteristic) curve 란 FPR(False Positive Rate) 와 TPR(True Positive Rate) 를 각각 x, y 축으로 놓은 그래프이다.
모델의 판단 기준을 연속적으로 바꾸면서 측정했을 때 FPR 과 TPR 의 변화를 나타낸 것으로, (0,0) , (1,1) 을 잇는 곡선이다.

X 축 방향으로 진행하면서 Decision Threshold 는 1.0 , 0.95 , 0.90 ...... 0.15 , 0.10 , ... 0.0 의 기준으로 TPR 과 FPR 의 값을 결정해줍니다.
앞서 언급했듯이 TPR 은 높을 수록 좋고 FPR 은 낮을 수록 좋습니다. decision threshold 가 커지면 (1에 가까우면) TPR 이든 FPR 이든 작아지고 0에 가까우면 커지게 됩니다. 따라서 FPR 의 값이 증가할 때 TPR 이 더욱 급격하게 증가할때, (FPR 의 값이 감소할 때 TPR이 더욱 천천이 작아진다면) 좋은 성능을 가진 이진분류기라고 볼 수 있습니다. 이런 경우 곡선 아래의 넓이 (AUC) 가 1에 가까워질 것입니다.
*AUC : ROC curve의 밑면적을 말한다. 즉, 성능 평가에 있어서 수치적인 기준이 될 수 있는 값으로, 1에 가까울수록 그래프가 좌상단에 근접하게 되므로 좋은 모델이라고 할 수 있다.
'About Statistics (통계)' 카테고리의 다른 글
표본오차와 신뢰구간 (0) | 2024.08.07 |
---|---|
상관관계와 인과관계 | Correlation does not imply causation (0) | 2024.08.01 |
기술통계와 추론통계 (0) | 2024.08.01 |
데이터 분석에서 통계가 중요한 이유 (0) | 2024.08.01 |
베이지안 이론(Bayesian theory) (0) | 2022.03.29 |