자격증/데이터분석가[ADsP]

[ADsP] 3과목 필독! 연관분석의 지지도, 신뢰도, 향상도

FintechPark 2021. 3. 8. 18:01

연관분석이란?


ADsP 시험에서 개념은 2문제, 계산도 약 1~2문제 출제 되는 연관분석의 지지도, 신뢰도, 향상도!

 

연관규칙이란 항목들 간의 조건-결과로 이루어지는 '패턴'을 발견하는 것이며, 상품의 구매·서비스와 같은 거래·사건들 간의 규칙을 의미한다. 기업이 소비자의 장바구니에 무엇이 같이 들어 있는지 확인할 때 사용하기에 장바구니 분석이라고도 한다. (서열 분석, 물건 배열, 카탈로그, 교차 판매) 등에 활용되는 데이터 마이닝 기법이다.

 

A=초콜릿, B=우유로 생각하고 어떻게 묶음 판매해야 잘 팔릴지 생각하면서 아래 표를 보자.

 

  연관규칙의 척도 식 
지지도(Support) 전체 매장 판매 中 초콜릿과 우유
동시 포함하는 판매의 확률
(초콜릿∩우유)/
(전체)
신뢰도(Confidence) 초콜릿을 샀을 때 초콜릿과 우유
동시에 살 확률
P(초콜릿∩우유)/
P(초콜릿)
향상도(Lift) 초콜릿은 안 사고 우유를 샀을 때 대비
초콜릿을 사고 우유를 샀을 때 확률의 '증가비' 
P(초콜릿∩우유)/
{P(초콜릿)*P(우유)}

말로만 보면 어려우니 문제를 풀어보자. (ADsP 기출 유형)

 

  품목 판매 수량
초콜릿 10
우유 20
초콜릿, 우유 30
우유, 콜라 40
초콜릿, 사이다 50
초콜릿, 우유, 콜라 60
  전체 210

 

초콜릿(A)->우유(B)지지도, 신뢰도, 향상도를 구하시오.

 

지지도 = (30+60) / 210 = 0.43

신뢰도 = {(30+60)/210} / {(10+30+50+60)/210} = 0.43 / 0.71 = 0.60

향상도 = {(30+60)/210} / [{(10+30+50+60)/210]*[(20+30+40+60)/210}] = 0.43 / (0.71*0.71) = 0.43 / 0.50  = 0.85

 

더 쉽게 구할 수도 있다.

 

지지도 = (30+60) / 210 = 0.43

신뢰도 = 지지도 / P(초콜릿) = 0.43 / 0.71 = 0.60

향상도 = 신뢰도 / P(우유) = 0.60 / 0.71 = 0.85

 

※ 향상도를 해석하는 법도 알아야 한다. 향상도는

 

i) 향상도 = P(초콜릿∩우유) / [P(초콜릿)*P(우유)] 

 

인데, 만약 초콜릿과 우유를 판매하는 것이 상관이 없다면 이것은 독립시행이라 말하고,

 

ii) P(초콜릿∩우유) = P(초콜릿)*P(우유)

 

를 만족하게 된다. (이과 아니면 그냥 외우길)

 

즉, 초콜릿과 우유를 사는 것이 관련이 없을 때, (독립일 때) ii식i식에 대입하면

 

향상도 = P(초콜릿∩우유) / [P(초콜릿)*P(우유)] = [P(초콜릿)*P(우유)] / [P(초콜릿)*P(우유)] = 1

 

따라서 독립일 때 향상도가 1이 된다.


초콜릿과 우유 판매가 관련이 없으면 향상도 = 1,

초콜릿을 샀을 때 우유를 살 확률이 향상된다면 향상도는 > 1,

초콜릿을 샀을 때 우유를 살 확률이 저해된다면 향상도는 < 1.

 

위 개념도 시험에 종종 등장하니 확인하도록 하자.