[데이터분석 준전문가, ADsP] 자격증 시험 요약자료로
3과목. 데이터 분석의 "제3장. 정형 데이터 마이닝"입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
[목차]
3과목. 데이터 분석
제3장. 정형 데이터 마이닝
3. 군집분석
4. 연관분석
3. 군집분석
- [군집 내 유사성] 및 [다른 군집 간 상이성]을 규명하는 분석 방법
- 상품구매행동 or 소비자군 분류하여 시장전략수립 등에 활용
구분 | 거리 | 내용 |
연속형 변수 | 유클리디안 거리 | 데이터간 유사성 측정 변수들의 산포 정도가 감안되어 있지 않음 |
표준화 거리 | 표준편차로 척도 변환 후, 유클리드안 거리를 계산하는 방법 |
|
마할라노비스 거리 | 변수들의 산포를 고려하여 표준화한 거리 두 벡터 사이의 거리를 표본공분산으로 나눠줌 |
|
체비셰프 거리 | - | |
맨하탄 거리 | 건물에서 건물을 가기 위한 최단 거리 | |
캔버라 거리 | - | |
민코우스키 거리 | 맨하탄 거리와 유클리디안 거리를 한번에 표현 | |
범주형 변수 | 자카드 거리 | - |
코사인 거리 | 유사도 기준으로 분류 or 그룹핑 |
1) 계층적 군집분석
- 군집의 개수를 줄여 나가는 방법
① 가까운 거리의 객체들 간의 관계를 규명하고, 덴드로그램을 그림
② 세로축 개수에 따라 가로선을 그어 군집 개수를 선택
③ 적절한 군집 수를 선정
최단연결법 | 최장연결법 | 평균연결법 | 와드연결법 |
최단거리로 거리행렬을 수정 |
최장거리로 거리행렬을 수정 |
평균거리로 거리행렬을 수정 |
편차들의 제곱합을 고려한 방법, 군집 간 정보 손실 최소화를 위해 군집화 진행 |
2) 비계층적 군집분석
(1) K-평균 군집분석
- K개의 클러스터로 묶는 알고리즘
- 분산 최소화 방식으로 동작
- 군집 개수 및 초기 값을 정해 seed 중심으로 군집을 형성
(모든 개체가 군집으로 할당될 때까지 반복)
- 연속형 변수에 활용
- k개 초기 중심값은 임의로 선택 가능, 멀리 떨어지는 것이 바람직
장점 | 단점 |
- 알고리즘 단순, 빠르게 수행 - 많은 양의 데이터를 다룰 수 있음 - 사전정보 없어도 가능 - 다양한 형태 데이터에 적용 가능 |
- 군집 수, 가중치, 거리 정의가 어려움 - 결과 해석이 어려움 - 이상값의 영향을 많이 받음 - 초기 군집 수 결정 어려움 |
3) 혼합 분포 군집분석
- 모형 기반의 군집 방법
- 모수와 가중치 추정에는 *EM 알고리즘 사용
* E단계: 잠재변수 Z의 기대치 계산
M단계: 잠재변수 Z의 기대치를 이용하여 파라미터 추정
- 확률분포를 도입하여 군집을 수행
- 이상치 자료에 민감하여 사전 조치 필요
4) SOM (자기조직화지도, 코호넨 맵)
- 비지도 신경망
- 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화
- 지도 형태로 형상화하여 시각적 이해가 쉬움
입력층 (입력벡터 받는 층) | 경쟁층 (2차원 격차로 구성된 층) |
- 입력 변수의 개수와 동일하게 뉴런 수 존재 - 입력층 뉴런은 경쟁층 뉴런과 각각 연결되어 있으며, 완전 연결되어 있음 |
- 벡터가 한 점으로 클러스터링 되는 층 - SOM은 경쟁 학습으로 입력 패턴과 유사한 경쟁층 뉴런이 승자가 됨 - 승자와 유사한 뉴런만 경쟁 뉴런으로 배열됨 |
신경망 모형 | SOM |
- 오차역전파법 - 입력층, 은닉층, 출력층 - 지도학습 |
- 경쟁학습 - 입력층, 경쟁층 - 비지도학습 - 속도 빠름(실시간 학습) |
4. 연관분석 ( = 장바구니분석, 서열분석)
- 사건들 간의 규칙을 발견하기 위해 적용
- 조건과 반응의 형태임 (만일 A가 일어나면, B가 일어난다)
- 장바구니분석: 실시간 상품추천, 교차판매에 활용
서열분석: 교차판매 캠페인에 활용
지지도(Support) | 신뢰도(Confidence) | 향상도(Lift) |
A와 B를 동시 포함할 확률 | A를 포함한 거래 중 A와 B가 같이 포함될 확률 |
B 구매 고객 대비 A 구매 후 B 구매한 고객의 확률 * A와 B가 관련없는 경우 → 향상도=1 |
P(A ∩ B) | P(A ∩ B) / P(A) | P(A ∩ B) / P(A)P(B) |
장점 | 단점 |
- 결과 해석 쉬움 - 분석방향/목적 없는 경우 유용 - 간단한 자료 구조 - 계산 쉬움 |
- 대용량 데이터는 분석 불가능 - 세분화 품목이면 의미없는 결과 - 거래량 적은 품목은 제외되기 쉬움 - 분석시간 오래 걸림 |
Apriori 알고리즘 | FP-Growth 알고리즘 |
- 품목 부분집합의 개수를 줄이는 방식 - 최소 지지도 이상의 빈발항목집합만 연관규칙 계산 - 이해 쉬움 / 계산 복잡도 증가 |
- 품목 개수 줄여 비교하는 횟수를 줄이는 방식 - 분할정복 방식, 빠르게 빈발항목집합 추출 - 빠른 속도 분석 |
* 빈발항목집합: 최소 지지도보다 큰 지지도 값을 갖는 품목의 집합
위 내용은 [ADsP 데이터분석 준전문가, (주)데이터에듀]를 참고하여 요약한 자료입니다.
'데이터분석 준전문가(ADsP)' 카테고리의 다른 글
[ADsP] 3-3. 정형 데이터 마이닝(1) (2) | 2023.06.07 |
---|---|
[ADsP] 3-2. 통계분석(2) (0) | 2023.05.24 |
[ADsP] 3-2. 통계분석(1) (0) | 2023.05.23 |
[ADsP] 3-1. R 기초와 데이터 마트 (2) | 2023.05.22 |
[ADsP] 2-2. 분석 마스터 플랜 (0) | 2023.05.21 |