빅데이터 분석기사/필기 요약

[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(2)

✨️데이터분석가✨️ 2023. 4. 2. 13:08
728x90
728x90

[빅데이터분석기사]의 필기시험 요약자료로
Part3. 빅데이터 모델링의 "Chapter2. 분석기법 적용"입니다.

이번 내용은 자격증 공부가 아니더라도 통계 공부에 많은 도움이 되는 자료입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)


[목차]
Part3. 빅데이터 모델링
 Part3-2. 분석기법 적용
           1. 분석기법
              5) 서포트벡터머신
              6) 연관성분석
              7) 군집분석

1. 분석기법

5) 서포트벡터머신 (SVM)

- 데이터들과 가장 거리가 먼 초평면을 분리

- 지도학습 기반의 이진 선형 분류 모델

 

(1) 서포트벡터머신 특징

① 최적 분리 초평면을 찾아 분류(SVC)와 회귀(SVR) 수행

모든 변수의 속성 활용

③ 훈련 시간이 느리지만, 정확성 높고 과적합 가능성 낮음

 

(2) 서포트벡터머신 종류

하드 마진 SVM 소프트 마진 SVM
: 오분류를 허용하지 않음
: 노이즈로 최적 결정경계 모르는 경우 발생
: 오분류 허용
: 주로 이용하고, 하드 마진 SVM 보완

 

(3) 서포트벡터머신 구성요소

결정경계: 분류의 기준이 되는 경계

초평면: n차원 공간의 n-1차원 평면

마진: 결정경계에서 서포트벡터까지의 거리

서포트벡터: 결정경계와 가까이 있는 학습데이터들의 집합

슬랙변수: 허용된 오차를 위한 변수

 

(4) 서포트벡터머신 적용기준

선형 분리 가능: 최적 결정경계 기준으로 1과 -1로 구분하여 분류모형으로 사용

선형 분리 불가능: [연산의 복잡성], [연산량의 증가]커널트릭으로 해결

* 커널트릭: 선형 분류 불가능한 데이터 처리를 위해 데이터 차원을 증가시켜
                      하나의 초평면을 분리가능하도록 도와주는 커널함수 사용

 

 

6) 연관성 분석 = 장바구니 분석 = 서열 분석

- 항목 간 상호관계종속관계를 찾아내는 분석

- 연관성은 인과관계가 아닌, 상호관계를 의미

 

(1) 연관성분석 특징

① 목적변수가 없어 분석방향과 목적 없이도 적용 가능

② 결과 해석하기 쉬움 

③ 너무 세분된 품목은 의미없는 결과를 도출할 수 있음

    → Aprioir 알고리즘 활용 (사용빈도 높은 규칙만을 고려)

 

(2) 연관성분석 용어

지지도 Support 신뢰도 Confidence 향상도 Lift
P(A∩B)
A와 B 동시 발생 / 전체
P(B|A) = P(A∩B) / P(A)
A와 B 동시 발생 / A 발생
P(B|A) / P(B)
= P(A∩B) / P(A)P(B)
- : A 발생 가정하에 B 발생 확률
: 1이면 연관성 높음
: 연관성 정도 측정
: 향상도 A→B = B→A 대칭

 

 

7) 군집분석

- 변수의 유사성만 기준하여 n개 군집으로 집단화

- 집단 특징을 분석하는 다변량 분석 기법

 

(1) 계층적 군집

- 유사 개체를 군집화하는 과정을 반복하여 군집 형성

① 군집 형성 방법

- 병합적 방법: 작은 군집을 병합하는 방법, 거리가 가까우면 유사성 높음

- 분할적 방법: 군집을 분리하는 방법

- 계통도(덴드로그램): 개체는 하나의 군집에만 속함

② 군집 간 거리측정 방법

최단연결법 최장연결법 중심연결법 와드연결법 평균연결법
거리 최솟값 거리 최댓값 중심간의 거리,
두 군집 결합시
가중평균
군집 내
오차제곱합
(거리X)
모든 항목의
거리평균
(계산량↑)

③ 군집 간 거리계산

구분
종류 설명
연속형
변수

수학적
거리

유클리드 거리 두 점 간 차를 제곱하여 합한 값의 양의 제곱근
맨해튼 거리 두 점 간 차의 절대값을 합한 값
민코프스키 거리 m=1 →  맨해튼 거리
m=2 →  유클리드 거리
통계적
거리
표준화 거리 변수의 측정단위를 표준화한 거리
마할라노비스 거리 변수의 표준화 + 상관성 고려
명목형 변수
단순일치 계수 일치하는 속성의 비율
자카드 계수 두 집합 간의 유사도 측정
0(완전다름) < 자카드 계수 < 1(동일집합)
순서형 자료
순위 상관계수 순위에 대해 상관계수 계산

 

(2) K-평균 군집

- K개의 군집으로 묶는 알고리즘

① 군집의 수 K를 임의로 선택 (엘보 방식 사용, K값을 늘려감) 

② 군집 중심에 할당

③ 군집 내 평균을 계산, 군집의 중심을 갱신

④ 군집 중심의 변화가 없을 때까지 반복

⑤ K개의 최종 군집 형성

 

(3) 혼합분포 군집

- 모수와 가중치를 추정하는 방법

- 식이 복잡하여 EM알고리즘 이용

* EM알고리즘: E와 M단계를 반복 수행하여 최대 가능도/사후확률을 갖는

                           모수 추정값을 도출하는 알고리즘

                           - E단계: 잠재변수 Z의 기대치 계산

                           - M단계: 기대치로 파라미터 추정

K-평균 군집 혼합분포 군집
: 하드 군집
유클리드 거리
대용량 적합



: 소프트 군집
: 통계적(EM) 방법
: 대용량부적합 (시간 오래 걸림)
이상치 민감 (이상치 제거 필요)
: 군집을 몇 개 모수로 표현 가능
군집이 너무 작으면 추정 어려움

 

(4) 자기 조직화 지도 (SOM)

- 인공신경망 개념

- 고차원 → 저차원 뉴런으로 정렬

- 지도형태로 형상화하는 비지도 신경망

- 자율학습방법에 따른 군집화 적용 알고리즘

※ 구성

입력층 경쟁층
입력변수 개수와 같은 뉴런 존재
학습으로 경쟁층에 정렬 → '지도'
2차원 격자로 구성된 층
입력패턴과 유사한 경쟁층 뉴런 승자 (승자독점)

※ 알고리즘

① 노드에 대한 연결 강도 초기화

입력 벡터를 제시

유클리드 거리유사도 계산

④ 입력 벡터와 거리가 짧은 프로토타입 벡터 탐색

연결 강도 재조정 후, 2단계 반복

 

728x90
728x90