[빅데이터분석기사]의 필기시험 요약자료로
Part3. 빅데이터 모델링의 "Chapter2. 분석기법 적용"입니다.
이번 내용은 자격증 공부가 아니더라도 통계 공부에 많은 도움이 되는 자료입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)
[목차]
Part3. 빅데이터 모델링
Part3-2. 분석기법 적용
1. 분석기법
5) 서포트벡터머신
6) 연관성분석
7) 군집분석
1. 분석기법
5) 서포트벡터머신 (SVM)
- 데이터들과 가장 거리가 먼 초평면을 분리
- 지도학습 기반의 이진 선형 분류 모델
(1) 서포트벡터머신 특징
① 최적 분리 초평면을 찾아 분류(SVC)와 회귀(SVR) 수행
② 모든 변수의 속성 활용
③ 훈련 시간이 느리지만, 정확성 높고 과적합 가능성 낮음
(2) 서포트벡터머신 종류
하드 마진 SVM | 소프트 마진 SVM |
: 오분류를 허용하지 않음 : 노이즈로 최적 결정경계 모르는 경우 발생 |
: 오분류 허용함 : 주로 이용하고, 하드 마진 SVM 보완함 |
(3) 서포트벡터머신 구성요소
① 결정경계: 분류의 기준이 되는 경계
② 초평면: n차원 공간의 n-1차원 평면
③ 마진: 결정경계에서 서포트벡터까지의 거리
④ 서포트벡터: 결정경계와 가까이 있는 학습데이터들의 집합
⑤ 슬랙변수: 허용된 오차를 위한 변수
(4) 서포트벡터머신 적용기준
① 선형 분리 가능: 최적 결정경계 기준으로 1과 -1로 구분하여 분류모형으로 사용
② 선형 분리 불가능: [연산의 복잡성], [연산량의 증가]를 커널트릭으로 해결
* 커널트릭: 선형 분류 불가능한 데이터 처리를 위해 데이터 차원을 증가시켜
하나의 초평면을 분리가능하도록 도와주는 커널함수 사용
6) 연관성 분석 = 장바구니 분석 = 서열 분석
- 항목 간 상호관계와 종속관계를 찾아내는 분석
- 연관성은 인과관계가 아닌, 상호관계를 의미
(1) 연관성분석 특징
① 목적변수가 없어 분석방향과 목적 없이도 적용 가능
② 결과 해석하기 쉬움
③ 너무 세분된 품목은 의미없는 결과를 도출할 수 있음
→ Aprioir 알고리즘 활용 (사용빈도 높은 규칙만을 고려)
(2) 연관성분석 용어
지지도 Support | 신뢰도 Confidence | 향상도 Lift |
P(A∩B) A와 B 동시 발생 / 전체 |
P(B|A) = P(A∩B) / P(A) A와 B 동시 발생 / A 발생 |
P(B|A) / P(B) = P(A∩B) / P(A)P(B) |
- | : A 발생 가정하에 B 발생 확률 : 1이면 연관성 높음 |
: 연관성 정도 측정 : 향상도 A→B = B→A 대칭 |
7) 군집분석
- 변수의 유사성만 기준하여 n개 군집으로 집단화
- 집단 특징을 분석하는 다변량 분석 기법
(1) 계층적 군집
- 유사 개체를 군집화하는 과정을 반복하여 군집 형성
① 군집 형성 방법
- 병합적 방법: 작은 군집을 병합하는 방법, 거리가 가까우면 유사성 높음
- 분할적 방법: 큰 군집을 분리하는 방법
- 계통도(덴드로그램): 개체는 하나의 군집에만 속함
② 군집 간 거리측정 방법
최단연결법 | 최장연결법 | 중심연결법 | 와드연결법 | 평균연결법 |
거리 최솟값 | 거리 최댓값 | 중심간의 거리, 두 군집 결합시 가중평균 |
군집 내 오차제곱합 (거리X) |
모든 항목의 거리평균 (계산량↑) |
③ 군집 간 거리계산
구분 |
종류 | 설명 | |
연속형 변수 |
수학적 거리 |
유클리드 거리 | 두 점 간 차를 제곱하여 합한 값의 양의 제곱근 |
맨해튼 거리 | 두 점 간 차의 절대값을 합한 값 | ||
민코프스키 거리 | m=1 → 맨해튼 거리 m=2 → 유클리드 거리 |
||
통계적 거리 |
표준화 거리 | 변수의 측정단위를 표준화한 거리 | |
마할라노비스 거리 | 변수의 표준화 + 상관성 고려 | ||
명목형 변수 |
단순일치 계수 | 일치하는 속성의 비율 | |
자카드 계수 | 두 집합 간의 유사도 측정 0(완전다름) < 자카드 계수 < 1(동일집합) |
||
순서형 자료 |
순위 상관계수 | 순위에 대해 상관계수 계산 |
(2) K-평균 군집
- K개의 군집으로 묶는 알고리즘
① 군집의 수 K를 임의로 선택 (엘보 방식 사용, K값을 늘려감)
② 군집 중심에 할당
③ 군집 내 평균을 계산, 군집의 중심을 갱신
④ 군집 중심의 변화가 없을 때까지 반복
⑤ K개의 최종 군집 형성
(3) 혼합분포 군집
- 모수와 가중치를 추정하는 방법
- 식이 복잡하여 EM알고리즘 이용
* EM알고리즘: E와 M단계를 반복 수행하여 최대 가능도/사후확률을 갖는
모수 추정값을 도출하는 알고리즘
- E단계: 잠재변수 Z의 기대치 계산
- M단계: 기대치로 파라미터 추정
K-평균 군집 | 혼합분포 군집 |
: 하드 군집 : 유클리드 거리 : 대용량에 적합 |
: 소프트 군집 : 통계적(EM) 방법 : 대용량에 부적합 (시간 오래 걸림) : 이상치 민감 (이상치 제거 필요) : 군집을 몇 개 모수로 표현 가능 : 군집이 너무 작으면 추정 어려움 |
(4) 자기 조직화 지도 (SOM)
- 인공신경망 개념
- 고차원 → 저차원 뉴런으로 정렬
- 지도형태로 형상화하는 비지도 신경망
- 자율학습방법에 따른 군집화 적용 알고리즘
※ 구성
입력층 | 경쟁층 |
입력변수 개수와 같은 뉴런 존재 학습으로 경쟁층에 정렬 → '지도' |
2차원 격자로 구성된 층 입력패턴과 유사한 경쟁층 뉴런 승자 (승자독점) |
※ 알고리즘
① 노드에 대한 연결 강도 초기화
② 입력 벡터를 제시
③ 유클리드 거리로 유사도 계산
④ 입력 벡터와 거리가 짧은 프로토타입 벡터 탐색
⑤ 연결 강도 재조정 후, 2단계 반복
'빅데이터 분석기사 > 필기 요약' 카테고리의 다른 글
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_고급(2) (0) | 2023.04.04 |
---|---|
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_고급(1) (0) | 2023.04.03 |
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(1) (0) | 2023.04.01 |
[빅데이터분석기사/필기요약] Part3-1. 분석모형 설계 (0) | 2023.03.29 |
[빅데이터분석기사/필기요약] Part2-3. 통계기법 이해 (0) | 2023.03.28 |