데이터분석 준전문가(ADsP)

[ADsP] 3-3. 정형 데이터 마이닝(2)

✨️데이터분석가✨️ 2023. 6. 24. 08:00
728x90
728x90

[데이터분석 준전문가, ADsP] 자격증 시험 요약자료로

3과목. 데이터 분석의 "제3장. 정형 데이터 마이닝"입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!


[목차]
3과목. 데이터 분석
 제3장. 정형 데이터 마이닝
          3. 군집분석
          4. 연관분석

 

3. 군집분석

- [군집 내 유사성][다른 군집 간 상이성]을 규명하는 분석 방법

- 상품구매행동 or 소비자군 분류하여 시장전략수립 등에 활용

구분 거리 내용
연속형 변수 유클리디안 거리 데이터간 유사성 측정
변수들의 산포 정도가 감안되어 있지 않음
표준화 거리 표준편차로 척도 변환 후,
유클리드안 거리를 계산하는 방법
마할라노비스 거리 변수들의 산포를 고려하여 표준화한 거리
두 벡터 사이의 거리를 표본공분산으로 나눠줌
체비셰프 거리 -
맨하탄 거리 건물에서 건물을 가기 위한 최단 거리
캔버라 거리 -
민코우스키 거리 맨하탄 거리와 유클리디안 거리를 한번에 표현
범주형 변수 자카드 거리 -
코사인 거리 유사도 기준으로 분류 or 그룹핑

 

 

1) 계층적 군집분석

- 군집의 개수를 줄여 나가는 방법

① 가까운 거리의 객체들 간의 관계를 규명하고, 덴드로그램을 그림

② 세로축 개수에 따라 가로선을 그어 군집 개수를 선택

③ 적절한 군집 수를 선정

최단연결법 최장연결법 평균연결법 와드연결법
최단거리로
거리행렬을 수정
최장거리로
거리행렬을 수정
평균거리로
거리행렬을 수정
편차들의 제곱합을
고려한 방법,

군집 간 정보 손실
최소화를 위해
군집화 진행

 

 

2) 비계층적 군집분석

 

(1) K-평균 군집분석

- K개의 클러스터로 묶는 알고리즘

- 분산 최소화 방식으로 동작

- 군집 개수 및 초기 값을 정해 seed 중심으로 군집을 형성

  (모든 개체가 군집으로 할당될 때까지 반복)

- 연속형 변수에 활용

- k개 초기 중심값은 임의로 선택 가능, 멀리 떨어지는 것이 바람직

장점 단점
- 알고리즘 단순, 빠르게 수행
- 많은 양의 데이터를 다룰 수 있음
- 사전정보 없어도 가능
- 다양한 형태 데이터에 적용 가능
- 군집 수, 가중치, 거리 정의가 어려움
- 결과 해석이 어려움
- 이상값의 영향을 많이 받음
- 초기 군집 수 결정 어려움

 

 

3) 혼합 분포 군집분석

- 모형 기반의 군집 방법

- 모수와 가중치 추정에는 *EM 알고리즘 사용

  * E단계: 잠재변수 Z의 기대치 계산

     M단계: 잠재변수 Z의 기대치를 이용하여 파라미터 추정

- 확률분포를 도입하여 군집을 수행

- 이상치 자료에 민감하여 사전 조치 필요

 

 

4) SOM (자기조직화지도, 코호넨 맵)

- 비지도 신경망

- 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화

- 지도 형태로 형상화하여 시각적 이해가 쉬움

입력층 (입력벡터 받는 층) 경쟁층 (2차원 격차로 구성된 층)
- 입력 변수의 개수와 동일하게 뉴런 수 존재
- 입력층 뉴런은 경쟁층 뉴런과 각각 연결되어
  있으며, 완전 연결되어 있음
- 벡터가 한 점으로 클러스터링 되는 층
- SOM은 경쟁 학습으로 입력 패턴과
  유사한 경쟁층 뉴런이 승자가 됨

- 승자와 유사한 뉴런만 경쟁 뉴런으로 배열됨
신경망 모형 SOM
- 오차역전파법
- 입력층, 은닉층, 출력층
- 지도학습

- 경쟁학습
- 입력층, 경쟁층
- 비지도학습
- 속도 빠름(실시간 학습)

 

 


4. 연관분석 ( = 장바구니분석, 서열분석)

- 사건들 간의 규칙을 발견하기 위해 적용

- 조건과 반응의 형태임 (만일 A가 일어나면, B가 일어난다)

- 장바구니분석: 실시간 상품추천, 교차판매에 활용

  서열분석: 교차판매 캠페인에 활용

지지도(Support) 신뢰도(Confidence) 향상도(Lift)
A와 B를 동시 포함할 확률 A를 포함한 거래 중
A와 B가 같이 포함될 확률
B 구매 고객 대비
A 구매 후 B 구매한 고객의 확률
* A와 B가 관련없는 경우
→ 향상도=1
P(A ∩ B) P(A ∩ B) / P(A) P(A ∩ B) / P(A)P(B)
장점 단점
- 결과 해석 쉬움
- 분석방향/목적 없는 경우 유용
- 간단한 자료 구조
- 계산 쉬움
- 대용량 데이터는 분석 불가능
- 세분화 품목이면 의미없는 결과
- 거래량 적은 품목은 제외되기 쉬움
- 분석시간 오래 걸림

 

Apriori 알고리즘 FP-Growth 알고리즘
- 품목 부분집합의 개수를 줄이는 방식
- 최소 지지도 이상의 빈발항목집합만
  연관규칙 계산

- 이해 쉬움 / 계산 복잡도 증가
- 품목 개수 줄여 비교하는 횟수를 줄이는 방식
- 분할정복 방식, 빠르게 빈발항목집합 추출
- 빠른 속도 분석

* 빈발항목집합: 최소 지지도보다 큰 지지도 값을 갖는 품목의 집합

 

 

 

위 내용은 [ADsP 데이터분석 준전문가, (주)데이터에듀]를 참고하여 요약한 자료입니다.

 

728x90
728x90