빅데이터 분석기사/필기 요약

[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_고급(2)

✨️데이터분석가✨️ 2023. 4. 4. 19:00
728x90
728x90

[빅데이터분석기사]의 필기시험 요약자료로
Part3. 빅데이터 모델링의 "Chapter2. 분석기법 적용"입니다.

이번 내용은 자격증 공부가 아니더라도 통계 공부에 많은 도움이 되는 자료입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)


[목차]
Part3. 빅데이터 모델링
 Part3-2. 분석기법 적용
           2. 고급 분석기법
              5) 딥러닝 분석
              6) 비정형 데이터 분석
              7) 앙상블 분석
              8) 비모수 통계

2. 고급 분석기법

5) 딥러닝 분석

비정형 데이터 분석을 위한 인공신경망 기반 머신러닝 알고리즘
인공지능분야의 핵심기술

(1) 하이퍼파라미터
예측오차를 최소화하는 파라미터
① learning rate: 파라미터의 업데이트 정도를 조절
② 1 epoch: 모든 학습용데이터가 forward/backward pass를 진행
③ 1 iteration: 한 번의 forward/backward pass 진행
④ mini-batch size1 iteration에 학습할 학습용데이터 수

(2) 합성곱신경망(CNN)
이미지 처리에 특화
- [합성곱]과 [풀링] 영역 분류를 수행하는 완전연결신경망 영역으로 구성
- 예) AlexNet, VGGNet, GoogLeNet, ResNEt, DenseNet
① 합성곱(Convolution): 이미지로부터 특징 추출
- 필터 이용해 유사 이미지 강조하는 특성맵 출력특성맵은 합성곱 거치며 사이즈↓
패딩(Padding): 특성맵의 사이즈 조정
② 풀링(Pooling): 합성곱 거친 데이터를 요약
- 특징은 유지하면서 사이즈를 줄임 → 파라미터 수 줄이고, 과적합 방지
Max pooling최댓값을 대푯값으로 산출
Average pooling평균값을 대푯값으로 산출

(3) 순환신경망(RNN)
순차적인 데이터 학습에 특화
경사소멸장기의존성(시간이 지날수록 정보희미) 문제 보유
① 과거학습을 현재학습에 반영하는 순환구조 (누적) 
② 동일한 파라미터 공유
③ 입력과 출력 길이가 유연다양한 모형 설계 가능
LSTM(장단기 메모리): 중요도에 따라 가중치 조절로 RNN 문제 해결

(4) 생성적 적대 신경망(GAN)
생성자와 구분자가 대립해 서로의 성능을 개선하며 학습하는 알고리즘
생성자: 진짜 같은 가짜를 만들도록 학습
구분자: 가짜와 진짜를 판별하도록 학습


6) 비정형 데이터 분석

(1) 텍스트 마이닝
자연어처리(NLP) 방식으로 특징 추출/요약/분류/군집화 등 도출
① 텍스트 수집 및 전처리Corpus(코퍼스, 문서관리 기본구조) 생성 후, 전처리

전처리 방법
클렌징 토큰화 불용어 제거 어간 추출 표제어 추출
노이즈 제거 작은단위로
나누는 작업
중요하지 않은
용어 제거
접사 제거 단어의
원형 추출

의미추출: 단순화하여 의미있는 데이터로 변환
예) 단어별 사용빈도 행렬로 생성
③ 패턴분석: 분석 및 시각화
예) 워드 클라우드
감성분석: 긍/부정 여부

예) 감성어 사전, 머신러닝

(2) 소셜 네트워크 분석(SNA)
- 관계를 네트워크 구조로 분석하고 시각화

* 네트워크: 노드(개체, vertex)와 엣지(개체의 관계, link) 기반으로 구조화

소셜 네트워크 분석 속성
명성 응집력 범위 중개 구조적 등위성
권력/책임 있는
객체 확인
객체 간
연결 존재 확인
객체의
네트워크 규모
네트워크와의
연결 정도
구조적 지위와
역할이 동일한
객체들의 관계
지표 설명
밀도
(전체 연결 중
실제연결 비율)
연결정도 총 연결 관계수
포괄성 연결된 노드 수
중심성
(중심에
위치한 정도)
연결정도 중심성 직접 연결된 노드들의 합
연결 노드 수↑ → 정보획득↑
근접 중심성 최소거리 기반으로 간접 연결된 노드와의 관계까지 파악
매개 중심성 노드 사이의 위치정도
지나는 경로↑ → 매개 중심성↑
위세 중심성 연결된 노드의 영향력에 가중치 부여

 


7) 앙상블 분석

다수 모형에서 출력된 결과를 종합하여 최종결과 도출

- 예측력↑, 설명력↓


(1) 배깅(Bagging)
- 부트스트랩 샘플링(Bootstrap sampling, 랜덤복원추출)으로 추출한
  여러 개의 표본에 모형을 병렬적으로 학습하고 추출된 결과를 집계하는 기법

- 데이터 크기가 작거나, 결측값이 있는 경우 유리

- 성능향상에 효과적

 랜덤포레스트

- 의사결정나무 기반

- 기본 배깅 + 특징 배깅(랜덤)

- 편향은 유지, 분산은 감소예측력(예측편향), 과적합↓, 이상치영향 적게 받음

 

(2) 부스팅(Boosting)

- 약한 모형을 순차적으로 결합하여 강한 모형을 만드는 기법

- 잘못 분류한 데이터 → 높은 가중치 부여

- 잘 분류한 데이터  낮은 가중치 부여

- 정확도 높으나, 과적합 위험 높고, 이상치에 취약

AdaBoost GBM XGBoost Light GBM
: 높은 가중치 부여된
  표본을 잘 분류할 수
  있도록 학습
: 경사하강법을 이용
  (잔차 최소화로
  가중치 재조정)

: 탐욕 알고리즘으로
  매순간 최선의 답선택

과적합 위험 높고,
     학습 시간 길다
: GBM 단점 보완
: 시스템 최적화
  (병렬화-트리구축,
   가지치기)

: 알고리즘 고도화
  (정규화, 결측치
   처리, 교차검증)
: 깊고 비대칭적인
  트리 생성
-

 

 

8) 비모수 통계

- 모집단 분포를 가정하지 않고, 명목/서열척도 활용해 검정

장점 단점
- 모집단 분포에 대한 가정이 없음
- 계산식이 단순하고 직관적
- 표본 수가 작은 경우도 활용 가능
- 이상치 영향을 적게 받음
- 모집단 분포 가정을 만족하면 효율이 떨어짐
- 표본 수가 크면 계산량이 과도함
비모수 통계 검정 방법 내용 검정통계량
부호검정
(Sign test)
[부호]만 기준으로 중앙값 검정
H0: M(중앙값) = Mo
* 연속성, 독립성 가정
윌콕슨 부호 순위 검정 [부호], [상대적 크기]를 고려해 중앙값 검정
H0: M = Mo
부호검정 단점 보완

* 연속성, 독립성, 대칭성 가정
만-위트니 U 검정
(윌콕슨 순위 합 검정)
두 모집단 간의 중앙값 위치 비교
H0: 두 집단의 중앙값과 같다

* 연속성, 독립성, 대칭성 가정
크루스칼-왈리스 검정
(순위기반 일원ANOVA)
세 개 이상 집단의 분포 비교
H0: 모든 집단의 분포는 같다(중앙값은 다름)
-
런 검정(Run) 서로 독립인지 검정
표본 부호가 바뀔 때까지의 묶음
H0: 연속적인 관측치가 랜덤하다
런의 수가 상한/하한
범위를 벗어나면
귀무가설 기각
스피어만 순위 상관계수 두 변수의 순위 값을 기반으로 상관관계 평가 피어슨 상관계수
: 선형적 관계 평가

스피어만 상관계수
: 단조적 관계 평가

 

728x90
728x90