연관분석이란?
ADsP 시험에서 개념은 2문제, 계산도 약 1~2문제 출제 되는 연관분석의 지지도, 신뢰도, 향상도!
연관규칙이란 항목들 간의 조건-결과로 이루어지는 '패턴'을 발견하는 것이며, 상품의 구매·서비스와 같은 거래·사건들 간의 규칙을 의미한다. 기업이 소비자의 장바구니에 무엇이 같이 들어 있는지 확인할 때 사용하기에 장바구니 분석이라고도 한다. (서열 분석, 물건 배열, 카탈로그, 교차 판매) 등에 활용되는 데이터 마이닝 기법이다.
A=초콜릿, B=우유로 생각하고 어떻게 묶음 판매해야 잘 팔릴지 생각하면서 아래 표를 보자.
연관규칙의 척도 | 식 | |
지지도(Support) | 전체 매장 판매 中 초콜릿과 우유를 동시 포함하는 판매의 확률 |
(초콜릿∩우유)/ (전체) |
신뢰도(Confidence) | 초콜릿을 샀을 때 초콜릿과 우유를 동시에 살 확률 |
P(초콜릿∩우유)/ P(초콜릿) |
향상도(Lift) | 초콜릿은 안 사고 우유를 샀을 때 대비 초콜릿을 사고 우유를 샀을 때 확률의 '증가비' |
P(초콜릿∩우유)/ {P(초콜릿)*P(우유)} |
말로만 보면 어려우니 문제를 풀어보자. (ADsP 기출 유형)
품목 | 판매 수량 | |
가 | 초콜릿 | 10 |
나 | 우유 | 20 |
다 | 초콜릿, 우유 | 30 |
라 | 우유, 콜라 | 40 |
마 | 초콜릿, 사이다 | 50 |
바 | 초콜릿, 우유, 콜라 | 60 |
전체 | 210 |
초콜릿(A)->우유(B)의 지지도, 신뢰도, 향상도를 구하시오.
지지도 = (30+60) / 210 = 0.43
신뢰도 = {(30+60)/210} / {(10+30+50+60)/210} = 0.43 / 0.71 = 0.60
향상도 = {(30+60)/210} / [{(10+30+50+60)/210]*[(20+30+40+60)/210}] = 0.43 / (0.71*0.71) = 0.43 / 0.50 = 0.85
더 쉽게 구할 수도 있다.
지지도 = (30+60) / 210 = 0.43
신뢰도 = 지지도 / P(초콜릿) = 0.43 / 0.71 = 0.60
향상도 = 신뢰도 / P(우유) = 0.60 / 0.71 = 0.85
※ 향상도를 해석하는 법도 알아야 한다. 향상도는
i) 향상도 = P(초콜릿∩우유) / [P(초콜릿)*P(우유)]
인데, 만약 초콜릿과 우유를 판매하는 것이 상관이 없다면 이것은 독립시행이라 말하고,
ii) P(초콜릿∩우유) = P(초콜릿)*P(우유)
를 만족하게 된다. (이과 아니면 그냥 외우길)
즉, 초콜릿과 우유를 사는 것이 관련이 없을 때, (독립일 때) ii식을 i식에 대입하면
향상도 = P(초콜릿∩우유) / [P(초콜릿)*P(우유)] = [P(초콜릿)*P(우유)] / [P(초콜릿)*P(우유)] = 1
따라서 독립일 때 향상도가 1이 된다.
초콜릿과 우유 판매가 관련이 없으면 향상도 = 1,
초콜릿을 샀을 때 우유를 살 확률이 향상된다면 향상도는 > 1,
초콜릿을 샀을 때 우유를 살 확률이 저해된다면 향상도는 < 1.
위 개념도 시험에 종종 등장하니 확인하도록 하자.
'자격증 > 데이터분석가[ADsP]' 카테고리의 다른 글
[ADsP] 3일 합격수기 - 2021 비전공자인 당신도, 합격! (7) | 2021.04.09 |
---|---|
[ADsP] 3과목 필수! 오분류에 관한 추정치 (0) | 2021.03.09 |
[ADsP] 3과목 기출 + 주관식 정리 (0) | 2021.03.08 |
[ADsP] 2과목 기출 + 주관식 정리 (0) | 2021.03.08 |
[ADsP] 1과목 기출 + 주관식 정리 (1) | 2021.03.05 |