빅데이터 분석기사/필기 요약

[빅데이터분석기사/필기요약] Part4-1. 분석모형 평가 및 개선

✨️데이터분석가✨️ 2023. 4. 5. 19:00
728x90
728x90

[빅데이터분석기사]의 필기시험 요약자료로

Part4. 빅데이터 결과 해석의 "Chapter1. 분석모형 평가 및 개선"입니다.

출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!

(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)


[목차]
Part4. 빅데이터 결과 해석
 Part4-1. 분석모형 평가 및 개선
             1. 분석모형 평가
                 1) 평가 지표
                 2) 분석모형 진단
                 3) 교차 검증
                 4) 모수 유의성 검정
                 5)
적합도 검정

             2. 분석모형 개선
                 1) 과대적합 방지
                 2) 매개변수 최적화
                 3) 분석모형 융합
                 4) 최종모형 선정

1. 분석모형 평가

1) 평가 지표

(1) 회귀모형 평가 지표

- 오차(실제/예측값 차이)를 다양한 방식으로 평균하여 계산한 지표

평균절대오차
(MAE)
평균제곱오차
(MSE)
평균제곱근오차
(RMSE)
평균절대백분율오차
(RMSE)
직관적
오차크기 그대로 반영
제곱하여 평균한 값 일반적으로 사용
MSE에 제곱근
MAE를 퍼센트 변환
다른 단위 비교 가능
결정계수(R²)
선형회귀모형이 얼마나 잘 설명하는지를 나타냄
R² = SSR/SST, R² = 1 → 설명력↑

수정된 결정계수(독립변수 개수 고려) < 결정계수

 

(2) 분류모형 평가 지표

- 예측 결과 값이 범주형태 (참/거짓)

※ 혼동행렬

구분 예측값 평가항목
참(P) 거짓(N)
실제값 참(P) TP FN (2종 오류) 민감도(Sensitivity)
거짓(N) FP (1종 오류) TN 특이도(Specificity)
평가항목 정밀도(Precision) - 정확도(Accuracy)

 

※ 평가지표

정확도(Accuracy) 민감도(Sensitivity) 특이도(Specificity) 정밀도(Precision)
= TP+TN /
   TP+TN+FP+FN
= TP / TP+FN = TN / TN+FP = TP / TP+FP
- 참을 참으로 예측 거짓을 거짓으로 예측 참이 맞을 확률
- = 재현율(Recall)
= 참 긍정률(TPR)
거짓 긍정률(FPR)
= 1 - 특이도
= FP / TN+FP
-
- 초기에 걸러낼 때
→ 민감도 높음
마지막에 확신할 때
→ 특이도 높음
-

- F1 Score = 2 X { (민감도X정밀도) / (민감도+정밀도) }

 

(3) ROC 곡선

- AUC는 곡선 아래 면적으로, AUC = 1일수록 성능 좋음

ROC 곡선

 

 

2) 분석모형 진단

(1) 회귀모형 진단

- 잔차를 이용하여 검증

가정 내용 진단방법
선형성 - 종속변수는 독립변수의 선형함수 잔차산점도 선형성
독립성 독립변수 간 상관관계 X 잔차산점도 경향성 X
더빈왓슨 검정
등분산성 오차항의 분산 = 등분산 - 잔차산점도 고르게 분포
정규성 오차항의 평균 = 0 사피로 월크 검정
콜모고로프-스미르노프 적합성 검정
Q-Q plot

 

(2) 분석모형 오류

일반화 오류 (과대적합) 학습 오류 (과소적합)
학습데이터 특성을 지나치게 반영 학습데이터 특성을 부족하게 반영
편향↓, 분산↑
학습데이터는 좋은 성능
검증데이터는 낮은 성능
복잡도낮음
학습/검증데이터 모두 낮은 성능

 

 

3) 교차 검증

K-fold 교차검증 Hold-out 교차검증 Leave-P-Out 교차검증
학습데이터 k-1개
검증데이터 나머지 1개
무작위 7:3 or 8:2 검증데이터 P개
학습데이터 나머지 n-p개
P=1 → 리브-원-아웃 교차검증
검증데이터 구성 경우의 수 nCp

 

 

4) 모수의 유의성 검증

- 가설이 맞는지 확인

모수 검정 비모수 검정
모집단의 분포를 가정
집단 간 차이 검정
① 모집단이 특정 분포를 가정하지 않는 경우
n=30 미만인 경우
서열/명목척도인 경우에 사용
검정통계량: 표본평균, 표준편차
검정력: 모수 > 비모수 검정
검정통계량: 순위, 부호
모집단에 대한 유의성 검증
Z-검정 분산분석(ANOVA) T-검정 카이제곱 검정 F-검정
표본이 모집단에
속하는지 검증
집단의 평균 비교 단일: 평균 검증
양측: 평균 비교
(분산 알 때)
집단의
동질성 검정
분산 차이
유의성 검정

 

 

5) 적합도 검증

(1) Q-Q plot

- 정규분포에 얼마나 가까운지 시각적으로 표현

 

(2) 카이제곱 검정

- 독립인지 아닌지 확인, 범주형데이터에 사용, rxc분할표 사용

적합성 검정: 모집단 분포가 예상 분포와 동일한지

독립성 검정: 변수가 서로 독립적인지

동일성 검정: 집단의 분포동일한지

- H0: "정규분포를 따른다", p-value=0.0026

  ☞ p-value < 0.05 → 귀무가설 기각함 → "정규분포를 따르지 않는다"

 

(3) 샤피로 윌크 검정

- 정규성 검증

 

(4) 콜모고로프 스미르노프 검정

- 예상 분포와 얼마나 잘 맞는지 검정

- 누적 분포함수를 비교, 연속형데이터 적용 가능

 


2. 분석모형 개선

1) 과대적합 방지

① 학습데이터 수 증가

- 추가데이터 확보 필요

- 추가데이터 확보 어려울 경우 → 오버샘플링, 언더샘플링 사용

② 가중치 규제

- 가중치 값을 제한하여 변수의 수를 줄이는 효과 (과대적합 문제 해결)

- 예) L1규제, L2규제

③ 교차 검증

- 다른 검증데이터를 사용

 

 

2) 매개변수 최적화

- 손실함수 값을 작게 만드는 매개변수의 최적값을 찾아 나가는 과정, 예) 가중치

* 손실함수: 결과값과 실제값의 차이

 

(1) 경사하강법

- 손실함수의 기울기를 통해 최적값을 구하는 방법

- 기울기=0일때, 손실함수가 최소화되는 매개변수 값이 됨 (전역 최솟값)

배치 경사하강법(BGD) 확률적 경사하강법(SGD) 미니 배치 경사하강법
전체 데이터 사용 무작위 1개 선택 무작위 10~1000개 선택
부드럽게 수렴
시간 오래 걸림
오차율 크고, 불안정하게 수렴
속도 빠름
BGD보다 빠름
SBD보다 오차율 낮음

 

(2) 모멘텀

- 확률적 경사하강법의 매개변수 변경방향에 가속도 부여

- 모멘텀 계수(α)하이퍼파라미터로 0.9로 설정

 

(3) AdaGrad

- 변수마다 학습률을 다르게 적용

- 값이 많이 변한 매개변수학습률

   값이 많이 변하지 않은 매개변수 → 학습률

- (장점) 자동으로 학습률 변경

   (단점) 최적값 도달 전, 학습률이 0에 가까워짐

* 학습률: 매개변수가 변경되는 폭

 

(4) RMSProp

- AdaGrad 개선된 방법

- 하이퍼파라미터(ρ) 값↓최근 기울기 더 많이 반영

 

(5) Adam = 모멘텀 + RMSProp

- 매개변수 변경방향 + 폭, 모두 적절히 조절 가능

 

 

3) 분석모형 융합 (앙상블 기법)

보팅(Voting) 배깅(Bagging) 부스팅(Boosting) 스태킹(Stacking)
여러 분석모형
결과를 종합
학습데이터에서
일정한 크기의
Bootstrap 샘플
무작위 복원 추출해
학습 후, 종합하여
최종 분석모형 도출
약한 분석모형
여러개 연결하여
강한 분석모형 도출
여러 분석모형
예측을 종합
Hard voting(직접)
: 많이 선택된 class
Soft voting(간접)
: class 확률값의 평균
과대적합↓, 분산↓
회귀모형
: 예측값을 평균

분류모형
: 다수결로 종합
정답에 낮은 가중치,
오답에 높은 가중치
→ 오답 정답률 개선
-
- 예) Random Forest 예) Adaboost,
      XGboost,
      Light GBM
Blender,
Meta learner 사용

- 페이스팅(Pasting): 배깅과 동일하지만, 중복 허용 X

 

 

4) 최종모형 선정

 최종모형 평가 기준 선정

- 정확도, 정밀도, 재현율 등 성능지표 활용 

② 분석모형 평가

- 훈련에 사용하지 않은 데이터로 평가

- 예측값을 도출하여 최종모형 평가 기준 값들을 계산

③ 최종모형 선정

- 실제업무에 반영할 수 있는지도 함께 고려

728x90
728x90