빅데이터 분석기사/필기 요약

[빅데이터분석기사/필기요약] Part3.빅데이터 모델링

✨️데이터분석가✨️ 2023. 4. 18. 18:00
728x90
728x90

[빅데이터분석기사] 필기시험을 경험한 후에 요약한 자료입니다.

시험에 나온 문제! 시험에 나올법한 문제! 시험에 나왔으면 하는 문제! 

최대한 시험 출제 유형과 유사한 내용들로 요약했으니,

이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!


[목차]
Part3. 빅데이터 모델링
 Part3-1. 분석모형 설계
             1. 분석절차 수립
             2. 분석 환경 구축
 Part3-2. 분석기법 적용
             1. 분석기법
                  - 회귀분석, 로지스틱 회귀분석, 의사결정나무, 인공신경망,
                    서포트벡터머신, 연관성분석, 군집분석
             2. 고급 분석기법
                 - 범주형 자료 분석, 다변량 분석, 시계열 분석, 베이지안 기법, 
                   딥러닝 분석, 비정형 데이터 분석, 앙상블 분석, 비모수 통계

Part3-1. 분석모형 설계

1. 분석절차 수립

 

1) 분석모형 선정

(1) 데이터마이닝

분류분석 추정분석 예측분석 연관분석 군집분석
지도학습모형,
패턴학습하여
분류
결과값 추정 지도학습모형,
패턴학습하여
값을 예측
두 인자 간의
연관성 도출
비지도학습모형,
패턴유사 데이터
군집으로 묶음
로지스틱회귀,
나이브 베이즈,
의사결정나무,
SVM,인공신경망
신경망 모형 회귀모형,
의사결정나무,
인공신경망 모형,
시계열 모형
장바구니 분석 K-means,
계층적 군집분석


(2) 머신러닝

지도학습 비지도학습
종속변수가 포함된 데이터를 학습
종속변수가 포함되지 않은 데이터를 학습,
패턴도출
회귀분석, 로지스틱 회귀분석,
나이브 베이즈, KNN, 의사결정나무,
인공신경망, SVM, 랜덤포레스트
군집화(K-means, SOM, 계층군집),
차원축소(주성분분석, 선형판별분석),
연관분석, 자율학습 인공신경망


(3) 데이터 유형에 따른 모형 구분

데이터 유형 종속변수
연속형 범주형 없음
독립
변수
연속형 회귀분석 트리 모형,
인공신경망, SVR, KNN
로지스틱 회귀분석 트리모형,
인공신경망, SVM,
KNN, 판별 분석
주성분분석,
군집분석
범주형 회귀분석, t-test,
ANOVA, 트리모형,
인공신경망
로지스틱 회귀모형,
카이제곱검정,
트리모형, 인공신경망,
나이브베이즈
연관분석
연속형+
범주형
회귀분석, 트리모형,
인공신경망
트리모형, 인공신경망 상관분석

 

 

2) 분석모형 정의

(1) 파라미터와 하이퍼파라미터

파라미터 하이퍼파라미터
모형 내부 요소 모형 외부 요소
모형성능에 직접적인 영향 모형성능에 간접적인 영향
학습에 의해 자동 결정 사용자가 결정
인공신경망의 가중치,
SVM의 서포트벡터
인공신경망의 학습률,
KNN의 K의 개수

 


2. 분석기법 적용

1) 분석 도구 선정

R Python SAS 및 SPSS
- S언어 기반
- 분석특화, 시각화 강점
무료, 업데이터 빠름
- C언어 기반
범용성 높은 언어
- 웹/프로그램 개발 활용
무료, 업데이터 빠름
유료, 업데이트 느림

 

 

2) 데이터 분할

Hold-out  K-fold 교차검증 Bootstrap
랜덤추출로 데이터 분할,
보편적 방법
중복되지 않는
K개 데이터로 분할
복원추출을 통해
동일크기의 샘플데이터 추출
(분포가 치우쳐 있거나,
건수가 작을 때 사용)
학습/검증: 60~80%
테스트: 20~40%
학습: K-1개검증: 나머지 1개
(검증데이터 바꾸며 K번 반복)
학습(63.2%): 샘플
검증/테스트: 나머지

학습/검증데이터: 학습 모델 성능 검증

테스트/평가용데이터: 최종 모델 성능 검증 (학습X)

 

 


Part3-2. 분석기법 적용

1. 분석기법

 

1) 회귀분석

(1) 회귀분석의 가정

선형성 독립성 등분산성 정규성
독립변수&
종속변수는
선형적
단순회귀
 : 잔차 & 독립변수가 독립

다중회귀
 : 독립변수 간에 독립
잔차 고르게 분포 잔차항이 정규분포
잔차항의 평균0, 분산일정
Q-Q plot에서 잔차 우상향

 

(2) 회귀분석 종류
① 단순선형 회귀분석

회귀계수 추정 단순선형 회귀분석 - 검정
최소제곱법 사용 결정계수(R²)는 회귀모형의 설명력 지표
R² = SSR / SST,   0≤≤1
SST = SSR + SSE

 

② 다중선형 회귀분석

다중선형 회귀분석 - 통계적 유의성 다중선형 회귀분석 - 검정
F-값 = MSR / MSE
F-통계량↑ → P-value↓
  귀무가설 기각 → 통계적으로 유의함
① 유의성: t-통계량
② 설명력: 결정계수
③ 적합성: 산점도
④ 다중공선성
     : 변수들 사이에 선형관계 존재

        → 문제있는 변수 제거 or 주성분 회귀모형 적용
[다중공선성 의심]
R²↑, P-value↑ → 유의하지 않음
: 분산팽창요인 10이상

 

③ 규제가 있는 회귀분석

Ridge 회귀 Lasso 회귀 Elastic net 회귀
L2규제
: 모든 파라미터 제곱만큼의
  크기를 규제
가중치가 퍼지도록 하는 효과
L1규제
가중치 벡터를 0으로 규제
  → 의미있는 변수 선택 효과

다중공선성 있는 경우
  → Ridge 회귀보다 성능↓
Ridge + Lasso
  규제항을 더해 사용

 

 

2) 로지스틱 회귀분석

종속변수가 범주형일 경우 사용

① Odds 적용 ② logit 변환 ③ Sigmoid 함수 적용
Odds = P / (1-P) = ax + b
Odds = 0 ~ ∞,  추가변환필요
logit(P)
= log(P/1-P)
= log(Odds)
* P는 사건발생확률
y = 0 ~ 1의
확률값으로 변환

 

선형 회귀분석 로지스틱 회귀분석
x, y값 : -∞ ~ ∞
정규분포 따름
y값 : 0 ~ 1
이항분포 따름

 

 

3) 의사결정나무

(1) 의사결정나무 분석과정

- 성장(불순도↓), 정지 규칙(과적합 방지), 가지치기(복잡도↓), 노드 분리기준(순수도↑, 불순도↓)

종속변수
이산형 연속형
CHAID CART C4.5 CHAID CART
카이제곱 통계량 지니 지수 엔트로피 지수 ANOVA, F-통계량 분산 감소량
P-value↓
→ 귀무가설 기각
지니 지수↓
→ 불순도↓
엔트로피 지수↓
→ 불순도↓
P-value↓
→ 가지분할
분산 감소량↑
→ 가지분할

 

(2) 의사결정나무 장/단점

장점 단점
해석의 용이성, 새로운 데이터에 적용 쉬움
- 상호작용 효과 해석 가능
  (영향 정도 쉽게 파악)

- 비모수적 모형, 이상치에 민감하지 않음
선형성, 정규성, 등분산성 정 불필요
빠름유연성/정확성 높음
비연속성연속형 변수를 비연속적 값으로 취급
선형성 결여: 변수별 고유한 영향력 해석 어려움
비안정성과적합 발생 가능성 큼
                    (교차 타당성 평가 과정 필요)

 

 

4) 인공신경망 분석

(1) 인공신경망 구조
① 활성함수

Sigmoid 함수 ReLU 함수 Tanh 함수
: 로지스틱 함수
: 0 ~ 1 값 출력
기울기 소실 문제 생김
: 속도 느림
0보다 작으면 → 0,
  0보다 크면 → 입력값 출력
기울기 소실 문제 해결
: 0보다 작으면 뉴런 작동 X
: Sigmoid 함수 확장 형태
-1 ~ 1 값 출력
: 속도 빠름

② 신경망의 계층구조

입력층 은닉층 출력층
: 데이터 입력받음 가중합과 편향 계산
: 활성함수에 적용해 결과 산출
여러개의 층 가능
: 활성함수의 결과
: 분류문제는 라벨 확률 표시

③ 역전파 알고리즘

- 인공신경망 학습의 일반적인 알고리즘

- 결과값의 오차를 역으로 입력층으로 전파

오차가 최소가 될 수 있도록 가중

- 입력층보다 빠르고 정확

 

(2) 인공신경망 종류

단층 퍼셉트론 다층 퍼셉트론
: AND, OR 연산 가능
XOR은 선형 분리 X
은닉층 X
: 입력층/출력층 사이에 은닉층 추가
   비선형 데이터에 대해 학습
: 활성화함수로 Sigmoid 함수 사용
: XOR 문제 해결
: 은닉층 O
[문제점]
① 과적합: 학습데이터가 적어 예측을 잘 못함
② 기울기 소실: Sigmoid 함수는 0으로 수렴, 기울기 소실 문제 발생 → ReLU 함수로 해결
                             학습률 낮음 → 배치정규화로 해결

 

(3) 인공신경망 장/단점

장점 단점
스스로 가중치 학습
: 다양하고 은 데이터에 효과적
: 패턴인식, 분류, 예측에 효과적
비선형 문제 해결 가능
Noise에 민감하지 않음
: 시간 오래 걸림
: 가중치의 신뢰도 낮음
: 결과해석 어려움
은닉층/은닉노드 수 결정 어려움

 

5) 서포트벡터머신 (SVM)

(1) 서포트벡터머신 특징

① 최적 분리 초평면을 찾아 분류(SVC)와 회귀(SVR) 수행

② 모든 변수의 속성 활용

③ 훈련 시간이 느리지만, 정확성 높고 과적합 가능성 낮음

 

(2) 서포트벡터머신 종류

하드 마진 SVM 소프트 마진 SVM
오분류를 허용하지 않음
노이즈로 최적 결정경계 모르는 경우 발생
오분류 허용
주로 이용하고, 하드 마진 SVM 보완

 

(3) 서포트벡터머신 구성요소

- 결정경계, 초평면, 마진, 서포트벡터, 슬랙변수

 

 

6) 연관성 분석 = 장바구니 분석 = 서열 분석

(1) 연관성분석 특징

① 목적변수가 없어 분석방향과 목적 없이도 적용 가능

② 결과 해석하기 쉬움 

③ 너무 세분된 품목은 의미없는 결과를 도출할 수 있음

    → Aprioir 알고리즘 활용 (사용빈도 높은 규칙만을 고려)

 

(2) 연관성분석 용어

지지도 Support 신뢰도 Confidence 향상도 Lift
P(A∩B) P(B|A) = P(A∩B) / P(A) P(B|A) / P(B)
= P(A∩B) / P(A)P(B)

 

 

7) 군집분석

(1) 계층적 군집

최단연결법 최장연결법 중심연결법 와드연결법 평균연결법
거리 최솟값 거리 최댓값 중심간의 거리,
두 군집 결합시
가중평균
군집 내
오차제곱합
(거리X)
모든 항목의
거리평균
(계산량↑)
구분
종류 설명
연속형
변수

수학적
거리

유클리드 거리 두 점 간 차를 제곱하여 합한 값의 양의 제곱근
맨해튼 거리 두 점 간 차의 절대값을 합한 값
민코프스키 거리 m=1 →  맨해튼 거리
m=2 →  유클리드 거리
통계적
거리
표준화 거리 변수의 측정단위를 표준화한 거리
마할라노비스 거리 변수의 표준화 + 상관성 고려
명목형 변수
단순일치 계수 일치하는 속성의 비율
자카드 계수 두 집합 간의 유사도 측정
0(완전다름) < 자카드 계수 < 1(동일집합)
순서형 자료
순위 상관계수 순위에 대해 상관계수 계산

 

(2) K-평균 군집

K개의 군집으로 묶는 알고리즘 (엘보 방식으로 K 선택)

 

(3) 혼합분포 군집

모수와 가중치를 추정하는 방법

- 식이 복잡하여 EM알고리즘 이용

K-평균 군집 혼합분포 군집
하드 군집
유클리드 거리
대용량 적합



소프트 군집
통계적(EM) 방법
대용량에 부적합 (시간 오래 걸림)
이상치 민감 (이상치 제거 필요)
: 군집을 몇 개 모수로 표현 가능
: 군집이 너무 작으면 추정 어려움

 

(4) 자기 조직화 지도 (SOM)

인공신경망 개념

고차원 → 저차원 뉴런으로 정렬

- 지도형태로 형상화하는 비지도 신경망

자율학습방법에 따른 군집화 적용 알고리즘

 


2. 고급 분석기법

1) 범주형 자료 분석

독립변수 종속변수 분석방법
범주형 연속형 t-검정, 분산분석
범주형 범주형 분할표 분석, 카이제곱 검정, 피셔의 정확도 검정
연속형 범주형 로지스틱 회귀분석

 

(1) t-검정

두 집단 간의 평균을 비교하는 모수적 통계방법

가설검정, 정규성, 등분산성, 독립성 가정

 

(2) 분산분석

둘 이상 집단의 평균을 비교하는 모수적 통계방법

정규성, 등분산성, 독립성 가정

F분포로 가설 검정

① 일원분산분석(one-way ANOVA): 모든 집단의 평균은 같다

② 이원분산분석(two-way ANOVA): 두 변수는 상호작용효과가 없다

 

(3) 분할표 분석

구분 사건 발생 사건 미발생
A 집단 a b a+b
B 집단 c d c+d

 상대위험도(RR)

= A 발생 확률 / B 발생 확률 = (a/a+b) / (c/c+d)

 승산비(OR) = 오즈비 = 교차비

= Odds(A) / Odds(B) = ad/bc

Odds(A) = a/b

상대위험도(RR) 승산비(OR) 해석
RR < 1 OR < 1 A 발생 확률이 낮음
RR = 1 OR = 1 연관성 없음
RR > 1 OR > 1 A 발생 확률이 높음

 

(4) 카이제곱 검정

적합도 검정, 동질성 검정, 독립성 검정

 

(5) 피셔의 정확 검정

모든 경우의 수를 직접 확인

표본 수 or 빈도 수가 작은 경우 사용

초기하 분포 기반

초기하 분포: N개 모집단 중 k개 성공, n번 비복원 추출에서 x개 성공일 확률

 

 

2) 다변량 분석

(1) 상관관계 분석

피어슨 상관계수(r)스피어만 상관계수(p)

 

(2) 다차원 척도법(MDS)

① 유클리드 거리행렬로 개체들의 유사성 측정

② 개체를 점으로 배열

③ Stress value를 부적합도로 측정최소가 되도록 좌표 조정

 

(3) 다변량 분산분석(MANOVA)

2개 이상의 종속변수에 대한 분산분석

정규성, 등분산성, 독립성 가정

여러번 실시할 경우 → 1종 오류↑

 

(4) 주성분분석(PCA)

- 전체 변동을 최대한 보존하는 주성분을 생성하는 차원축소 방법

주성분 개수 선택 기준개별 고윳값, 정보량의 비율, Scree plot

- 다중공선성 문제 해결

 

(5) 요인분석(FA)

상관관계로 공통요인을 찾아 데이터를 요약하고 차원축소하는 분석

정규성 가정분산 동일, 모든 변수 연속형

요인추출 방법주성분분석, 공통요인법

요인회전 방법: 직각회전(베리멕스, 쿼티멕스, 이퀘멕스), 사각회전(오블리민)

주성분분석 요인분석
- 차원축소 분석
- 사전분석
선형적 결합 중심
주성분 추출
- 주성분 간 중요도 차이 있음
- 차원축소 분석
- 사전분석
잠재적 결합 중심
잠재변수 생성
새로운 변수들은 서로 대등

 

(6) 판별분석

연속형 독립변수들의 선형조합으로 분류/예측하는 분석 (범주형 종속변수)

정규성, 등분산성, 다변량 정규분포 가정

 

 

3) 시계열분석

정상성 비정상성
- 시점 상관없이
  일정한 데이터
대부분 비정상 시계열
- 평균/분산이 시점에 의존 X
- 공분산은 시차에 의존 O, 시점에 의존 X
- [정상화 방법]
① 이상치 제거
② 평균 일정 X → 차분을 통해 정상화 
③ 분산 일정 X → 변환을 통해 정상화

 

(1) 회귀분석

정규성, 등분산성, 독립성 가정

 

(2) 분해법

서로 독립이라는 가정을 기반으로 분해

 

(3) 이동평균법

동일 가중치 부여, 계절성분과 불규칙성분 제거

 

(4) 지수평활법

최근 관측치에 높은 가중치 부여

 

(5) AR ~ (9) SARIMA

자기회귀모형
AR(p)
이전 값이 이후 값에 영향을 미치는 상황
- 과거 관측치로 설명
이동평균모형
MA(q)
평균이 시간에 따라 변화하는 경향
- 과거의 오차항으로 설명
자기회귀 이동평균모형
ARMA(p,q)
- AR모형 + MA모형 결합한 모형
- 과거 관측치와 오차항으로 설명
자기회귀 누적 이동평균모형
ARIMA(p,d,q)
d차로 차분 변환 과정을 포함한 ARMA모형
계절형 자기회귀 이동평균모형
(SARIMA)
계절과 비계절 성분에 대한 모형을 순차적으로 적합

 

 

4) 베이지안 기법

(1) 조건부확률

 

(2) 베이즈 정리

사전/사후 확률 사이의 관계

신규 데이터를 기반으로 베이지안 확률을 갱신하는 방법

베이지안 확률: 특정 사건이 포함된다는 주장에 대한 신뢰도 의미

 

(3) 나이브 베이즈

- 모든 독립변수가 서로 동등하고 독립적으로 기여한다고 가정

쉽고빠름실시간/텍스트분류에 사용

- 신규데이터는 분류 X → Laplace smoothing 기법으로 보정

 

 

5) 딥러닝 분석

(1) 하이퍼파라미터
예측오차를 최소화하는 파라미터

(2) 합성곱신경망(CNN)
이미지 처리에 특화
합성곱(Convolution): 이미지로부터 특징 추출
- 필터 이용해 유사 이미지 강조하는 특성맵 출력특성맵은 합성곱 거치며 사이즈↓
패딩(Padding): 특성맵의 사이즈 조정
② 풀링(Pooling): 합성곱 거친 데이터를 요약
- 특징은 유지하면서 사이즈를 줄임 → 파라미터 수 줄이고, 과적합 방지

(3) 순환신경망(RNN)
순차적인 데이터 학습에 특화
경사소멸장기의존성(시간이 지날수록 정보희미) 문제 보유
* LSTM(장단기 메모리): 중요도에 따라 가중치 조절로 RNN 문제 해결

(4) 생성적 적대 신경망(GAN)
생성자와 구분자가 대립해 서로의 성능을 개선하며 학습하는 알고리즘

 


6) 비정형 데이터 분석

(1) 텍스트 마이닝
자연어처리(NLP) 방식으로 특징 추출/요약/분류/군집화 등 도출

(2) 소셜 네트워크 분석(SNA)

 


7) 앙상블 분석

다수 모형에서 출력된 결과를 종합하여 최종결과 도출

예측력↑설명력↓


(1) 배깅(Bagging)
부트스트랩 샘플링(Bootstrap sampling, 랜덤복원추출)으로 추출한
  여러 개의 표본에 모형을 병렬적으로 학습하고 추출된 결과를 집계하는 기법

- 데이터 크기가 작거나결측값이 있는 경우 유리

성능향상에 효과적

 랜덤포레스트

의사결정나무 기반

기본 배깅 + 특징 배깅(랜덤)

편향은 유지, 분산은 감소 → 예측력(예측편향)과적합↓이상치영향 적게 받음

 

(2) 부스팅(Boosting)

약한 모형을 순차적으로 결합하여 강한 모형을 만드는 기법

잘못 분류한 데이터 → 높은 가중치 부여

잘 분류한 데이터 → 낮은 가중치 부여

정확도 높으나과적합 위험 높고이상치에 취약

AdaBoost GBM XGBoost Light GBM
: 높은 가중치 부여된
  표본을 잘 분류할 수
  있도록 학습
경사하강법을 이용
  (잔차 최소화로
  가중치 재조정)

: 탐욕 알고리즘으로
  매순간 최선의 답선택

→ 과적합 위험 높고,
     학습 시간 길다
GBM 단점 보완
시스템 최적화
  (병렬화-트리구축,
   가지치기)

알고리즘 고도화
  (정규화, 결측치
   처리, 교차검증)
: 깊고 비대칭적인
  트리 생성

 

 

8) 비모수 통계

장점 단점
모집단 분포에 대한 가정이 없음
- 계산식이 단순하고 직관적
표본 수가 작은 경우도 활용 가능
이상치 영향을 적게 받음
- 모집단 분포 가정을 만족하면 효율이 떨어짐
- 표본 수가 크면 계산량이 과도함
비모수 통계 검정 방법 내용
부호검정
(Sign test)
[부호]만 기준으로 중앙값 검정
* 연속성, 독립성 가정
윌콕슨 부호 순위 검정 [부호], [상대적 크기]를 고려해 중앙값 검정
* 연속성, 독립성, 대칭성 가정
만-위트니 U 검정
(윌콕슨 순위 합 검정)
두 모집단 간의 중앙값 위치 비교
* 연속성, 독립성, 대칭성 가정
크루스칼-왈리스 검정
(순위기반 일원ANOVA)
세 개 이상 집단의 분포 비교
런 검정(Run) 서로 독립인지 검정
스피어만 순위 상관계수 두 변수의 순위 값을 기반으로 상관관계 평가

 

 

 

※ 자세한 내용은 아래 자료를 참고 부탁드립니다. 

 

[빅데이터분석기사/필기요약] Part3-1. 분석모형 설계

[빅데이터분석기사]의 필기시험 요약자료로 Part3. 빅데이터 모델링의 "Chapter1. 분석모형 설계"입니다. 출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바

dataslog.tistory.com

 

[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(1)

[빅데이터분석기사]의 필기시험 요약자료로 Part3. 빅데이터 모델링의 "Chapter2. 분석기법 적용"입니다. 이번 내용은 자격증 공부가 아니더라도 통계 공부에 많은 도움이 되는 자료입니다. 출제 빈

dataslog.tistory.com

 

[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(2)

[빅데이터분석기사]의 필기시험 요약자료로 Part3. 빅데이터 모델링의 "Chapter2. 분석기법 적용"입니다. 이번 내용은 자격증 공부가 아니더라도 통계 공부에 많은 도움이 되는 자료입니다. 출제 빈

dataslog.tistory.com

 

[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_고급(1)

[빅데이터분석기사]의 필기시험 요약자료로 Part3. 빅데이터 모델링의 "Chapter2. 분석기법 적용"입니다. 이번 내용은 자격증 공부가 아니더라도 통계 공부에 많은 도움이 되는 자료입니다. 출제 빈

dataslog.tistory.com

 

[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_고급(2)

[빅데이터분석기사]의 필기시험 요약자료로 Part3. 빅데이터 모델링의 "Chapter2. 분석기법 적용"입니다. 이번 내용은 자격증 공부가 아니더라도 통계 공부에 많은 도움이 되는 자료입니다. 출제 빈

dataslog.tistory.com

 

728x90
728x90