[빅데이터분석기사]의 필기시험 요약자료로
Part3. 빅데이터 모델링의 "Chapter2. 분석기법 적용"입니다.
이번 내용은 자격증 공부가 아니더라도 통계 공부에 많은 도움이 되는 자료입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)
[목차]
Part3. 빅데이터 모델링
Part3-2. 분석기법 적용
2. 고급 분석기법
5) 딥러닝 분석
6) 비정형 데이터 분석
7) 앙상블 분석
8) 비모수 통계
2. 고급 분석기법
5) 딥러닝 분석
- 비정형 데이터 분석을 위한 인공신경망 기반 머신러닝 알고리즘
- 인공지능분야의 핵심기술
(1) 하이퍼파라미터
- 예측오차를 최소화하는 파라미터
① learning rate: 파라미터의 업데이트 정도를 조절
② 1 epoch: 모든 학습용데이터가 forward/backward pass를 진행
③ 1 iteration: 한 번의 forward/backward pass 진행
④ mini-batch size: 1 iteration에 학습할 학습용데이터 수
(2) 합성곱신경망(CNN)
- 이미지 처리에 특화
- [합성곱]과 [풀링] 영역 분류를 수행하는 완전연결신경망 영역으로 구성
- 예) AlexNet, VGGNet, GoogLeNet, ResNEt, DenseNet
① 합성곱(Convolution): 이미지로부터 특징 추출
- 필터 이용해 유사 이미지 강조하는 특성맵 출력, 특성맵은 합성곱 거치며 사이즈↓
- 패딩(Padding): 특성맵의 사이즈 조정
② 풀링(Pooling): 합성곱 거친 데이터를 요약
- 특징은 유지하면서 사이즈를 줄임 → 파라미터 수 줄이고, 과적합 방지
- Max pooling: 최댓값을 대푯값으로 산출
- Average pooling: 평균값을 대푯값으로 산출
(3) 순환신경망(RNN)
- 순차적인 데이터 학습에 특화
- 경사소멸, 장기의존성(시간이 지날수록 정보희미) 문제 보유
① 과거학습을 현재학습에 반영하는 순환구조 (누적)
② 동일한 파라미터 공유
③ 입력과 출력 길이가 유연, 다양한 모형 설계 가능
* LSTM(장단기 메모리): 중요도에 따라 가중치 조절로 RNN 문제 해결
(4) 생성적 적대 신경망(GAN)
- 생성자와 구분자가 대립해 서로의 성능을 개선하며 학습하는 알고리즘
- 생성자: 진짜 같은 가짜를 만들도록 학습
- 구분자: 가짜와 진짜를 판별하도록 학습
6) 비정형 데이터 분석
(1) 텍스트 마이닝
- 자연어처리(NLP) 방식으로 특징 추출/요약/분류/군집화 등 도출
① 텍스트 수집 및 전처리: Corpus(코퍼스, 문서관리 기본구조) 생성 후, 전처리
전처리 방법 | ||||
클렌징 | 토큰화 | 불용어 제거 | 어간 추출 | 표제어 추출 |
노이즈 제거 | 작은단위로 나누는 작업 |
중요하지 않은 용어 제거 |
접사 제거 | 단어의 원형 추출 |
② 의미추출: 단순화하여 의미있는 데이터로 변환
예) 단어별 사용빈도 행렬로 생성
③ 패턴분석: 분석 및 시각화
예) 워드 클라우드
④ 감성분석: 긍/부정 여부
예) 감성어 사전, 머신러닝
(2) 소셜 네트워크 분석(SNA)
- 관계를 네트워크 구조로 분석하고 시각화
* 네트워크: 노드(개체, vertex)와 엣지(개체의 관계, link) 기반으로 구조화
소셜 네트워크 분석 속성 | ||||
명성 | 응집력 | 범위 | 중개 | 구조적 등위성 |
권력/책임 있는 객체 확인 |
객체 간 연결 존재 확인 |
객체의 네트워크 규모 |
네트워크와의 연결 정도 |
구조적 지위와 역할이 동일한 객체들의 관계 |
지표 | 설명 | |
밀도 (전체 연결 중 실제연결 비율) |
연결정도 | 총 연결 관계수 |
포괄성 | 연결된 노드 수 | |
중심성 (중심에 위치한 정도) |
연결정도 중심성 | 직접 연결된 노드들의 합 연결 노드 수↑ → 정보획득↑ |
근접 중심성 | 최소거리 기반으로 간접 연결된 노드와의 관계까지 파악 | |
매개 중심성 | 노드 사이의 위치정도 지나는 경로↑ → 매개 중심성↑ |
|
위세 중심성 | 연결된 노드의 영향력에 가중치 부여 |
7) 앙상블 분석
- 다수 모형에서 출력된 결과를 종합하여 최종결과 도출
- 예측력↑, 설명력↓
(1) 배깅(Bagging)
- 부트스트랩 샘플링(Bootstrap sampling, 랜덤복원추출)으로 추출한
여러 개의 표본에 모형을 병렬적으로 학습하고 추출된 결과를 집계하는 기법
- 데이터 크기가 작거나, 결측값이 있는 경우 유리
- 성능향상에 효과적
① 랜덤포레스트
- 의사결정나무 기반
- 기본 배깅 + 특징 배깅(랜덤)
- 편향은 유지, 분산은 감소 → 예측력(예측편향)↑, 과적합↓, 이상치영향 적게 받음
(2) 부스팅(Boosting)
- 약한 모형을 순차적으로 결합하여 강한 모형을 만드는 기법
- 잘못 분류한 데이터 → 높은 가중치 부여
- 잘 분류한 데이터 → 낮은 가중치 부여
- 정확도 높으나, 과적합 위험 높고, 이상치에 취약함
AdaBoost | GBM | XGBoost | Light GBM |
: 높은 가중치 부여된 표본을 잘 분류할 수 있도록 학습 |
: 경사하강법을 이용 (잔차 최소화로 가중치 재조정) : 탐욕 알고리즘으로 매순간 최선의 답선택 → 과적합 위험 높고, 학습 시간 길다 |
: GBM 단점 보완 : 시스템 최적화 (병렬화-트리구축, 가지치기) : 알고리즘 고도화 (정규화, 결측치 처리, 교차검증) |
: 깊고 비대칭적인 트리 생성 |
- | ![]() |
![]() |
8) 비모수 통계
- 모집단 분포를 가정하지 않고, 명목/서열척도 활용해 검정
장점 | 단점 |
- 모집단 분포에 대한 가정이 없음 - 계산식이 단순하고 직관적임 - 표본 수가 작은 경우도 활용 가능 - 이상치 영향을 적게 받음 |
- 모집단 분포 가정을 만족하면 효율이 떨어짐 - 표본 수가 크면 계산량이 과도함 |
비모수 통계 검정 방법 | 내용 | 검정통계량 |
부호검정 (Sign test) |
[부호]만 기준으로 중앙값 검정 H0: M(중앙값) = Mo * 연속성, 독립성 가정 |
![]() |
윌콕슨 부호 순위 검정 | [부호], [상대적 크기]를 고려해 중앙값 검정 H0: M = Mo 부호검정 단점 보완 * 연속성, 독립성, 대칭성 가정 |
![]() |
만-위트니 U 검정 (윌콕슨 순위 합 검정) |
두 모집단 간의 중앙값 위치 비교 H0: 두 집단의 중앙값과 같다 * 연속성, 독립성, 대칭성 가정 |
![]() |
크루스칼-왈리스 검정 (순위기반 일원ANOVA) |
세 개 이상 집단의 분포 비교 H0: 모든 집단의 분포는 같다(중앙값은 다름) |
- |
런 검정(Run) | 서로 독립인지 검정 표본 부호가 바뀔 때까지의 묶음 H0: 연속적인 관측치가 랜덤하다 |
런의 수가 상한/하한치 범위를 벗어나면 귀무가설 기각 |
스피어만 순위 상관계수 | 두 변수의 순위 값을 기반으로 상관관계 평가 | 피어슨 상관계수 : 선형적 관계 평가 스피어만 상관계수 : 단조적 관계 평가 |
'빅데이터 분석기사 > 필기 요약' 카테고리의 다른 글
[빅데이터분석기사/필기요약] Part4-2. 분석결과 해석 및 활용 (0) | 2023.04.06 |
---|---|
[빅데이터분석기사/필기요약] Part4-1. 분석모형 평가 및 개선 (0) | 2023.04.05 |
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_고급(1) (0) | 2023.04.03 |
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(2) (0) | 2023.04.02 |
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(1) (0) | 2023.04.01 |