자격증/데이터분석가[ADsP]

[ADsP] 3과목 필수! 오분류에 관한 추정치

FintechPark 2021. 3. 9. 22:31

1. ADsP 3과목에 무조건 출제되는

오분류표는 다음과 같다 [Confusion Matirx]


 

오분류표(Confusion Matrix)

TP: 실제(Conditon)값=예측(Prediction)치=TRUE 빈도

TN: 실제값=예측치=FALSE 빈도

FP: 실제는 False인데 True로 예측한 빈도

FN: 실제는 True인데 False로 예측한 빈도

 

이게 굉장히 헷갈린다. 그러나

 

T = 실제와 예측이 동일, F = 실제와 예측이 불일치

P = 예측이 Positive, N = 예측이 Negative

 

이렇게 기억하면 쉽다.

 

 

 

 

2. 실제 출제되는 문제


ADsP 실제 출제는 위의 오분류 표를 주고, 아래 평가 지표를 계산하기만 하면 된다.

 

평가 지표 계산식 의미
정밀도
(Precision)
TP / (TP + FP) 예측 정품 중 실제 정품인 비율
정확도
(Accuracy)
TP + TN / (TP + FP + FN + TN) 전체 예측 중 실제와 맞은 비율, 오분류율은 (1-정분류율)
재현율
[민감도]

(Recall)
[Sensitivity]
TP/ (TP + FN) 실제 정품중 예측 정품 비율
특이도
(Specificity)
TN / (TN + FP) 실제 불량품에서 예측 불량품의 비율
FP Rate FP / (TN + FP) 실제 불량품 중 정품으로 잘못 예측한 비율 (1-특이도)
F1 2×Precision×Recall / (Precision+Recall) 정확도와 재현율의 상관관계에 따른 보정 값
Kappa Accuracy - P(e) / (1 - P(e)) 두 평가자의 평가가 상호 일치하는지 평가하는 값

 

 

 

 

3. 예제


  실제값 (Condition)
Positive Negative
예측값
(Prediction)
Positive 30 40
Negative 50 60

 

정밀도를 구하시오

= (30)/(30+40) = 30/70 = 42.86%

 

정확도를 구하시오

= (30+60)/(30+40+50+60) = 90/180 = 50.00%

 

재현률(민감도)을 구하시오

= 30/(30+50) = 3/8 = 37.50%

 

특이도를 구하시오

= 60/(40+60) = 6/10 = 60.00%

 

FP Rate는?

= 40/(40+60) = 4/10 = 40.00%

 

F1은?

= {2 X (3/7) X (3/8)} / (3/7 + 3/8) = 40.17%

 

 

 

4. 여담


오분류표에서 2~3문제는 매년 출제되니 유념토록 하자 :)