[빅데이터분석기사]의 필기시험 요약자료로
Part4. 빅데이터 결과 해석의 "Chapter1. 분석모형 평가 및 개선"입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)
[목차]
Part4. 빅데이터 결과 해석
Part4-1. 분석모형 평가 및 개선
1. 분석모형 평가
1) 평가 지표
2) 분석모형 진단
3) 교차 검증
4) 모수 유의성 검정
5) 적합도 검정
2. 분석모형 개선
1) 과대적합 방지
2) 매개변수 최적화
3) 분석모형 융합
4) 최종모형 선정
1. 분석모형 평가
1) 평가 지표
(1) 회귀모형 평가 지표
- 오차(실제/예측값 차이)를 다양한 방식으로 평균하여 계산한 지표
평균절대오차 (MAE) |
평균제곱오차 (MSE) |
평균제곱근오차 (RMSE) |
평균절대백분율오차 (RMSE) |
직관적 오차크기 그대로 반영 |
제곱하여 평균한 값 | 일반적으로 사용 MSE에 제곱근 |
MAE를 퍼센트 변환 다른 단위 비교 가능 |
결정계수(R²) | |
선형회귀모형이 얼마나 잘 설명하는지를 나타냄 R² = SSR/SST, R² = 1 → 설명력↑ 수정된 결정계수(독립변수 개수 고려) < 결정계수 |
(2) 분류모형 평가 지표
- 예측 결과 값이 범주형태 (참/거짓)
※ 혼동행렬
구분 | 예측값 | 평가항목 | ||
참(P) | 거짓(N) | |||
실제값 | 참(P) | TP | FN (2종 오류) | 민감도(Sensitivity) |
거짓(N) | FP (1종 오류) | TN | 특이도(Specificity) | |
평가항목 | 정밀도(Precision) | - | 정확도(Accuracy) |
※ 평가지표
정확도(Accuracy) | 민감도(Sensitivity) | 특이도(Specificity) | 정밀도(Precision) |
= TP+TN / TP+TN+FP+FN |
= TP / TP+FN | = TN / TN+FP | = TP / TP+FP |
- | 참을 참으로 예측 | 거짓을 거짓으로 예측 | 참이 맞을 확률 |
- | = 재현율(Recall) = 참 긍정률(TPR) |
거짓 긍정률(FPR) = 1 - 특이도 = FP / TN+FP |
- |
- | 초기에 걸러낼 때 → 민감도 높음 |
마지막에 확신할 때 → 특이도 높음 |
- |
- F1 Score = 2 X { (민감도X정밀도) / (민감도+정밀도) }
(3) ROC 곡선
- AUC는 곡선 아래 면적으로, AUC = 1일수록 성능 좋음
2) 분석모형 진단
(1) 회귀모형 진단
- 잔차를 이용하여 검증
가정 | 내용 | 진단방법 |
선형성 | - 종속변수는 독립변수의 선형함수 | - 잔차산점도 선형성 |
독립성 | - 독립변수 간 상관관계 X | - 잔차산점도 경향성 X - 더빈왓슨 검정 |
등분산성 | - 오차항의 분산 = 등분산 | - 잔차산점도 고르게 분포 |
정규성 | - 오차항의 평균 = 0 | - 사피로 월크 검정 - 콜모고로프-스미르노프 적합성 검정 - Q-Q plot |
(2) 분석모형 오류
일반화 오류 (과대적합) | 학습 오류 (과소적합) |
학습데이터 특성을 지나치게 반영 | 학습데이터 특성을 부족하게 반영 |
편향↓, 분산↑ 학습데이터는 좋은 성능 검증데이터는 낮은 성능 |
복잡도는 낮음 학습/검증데이터 모두 낮은 성능 |
3) 교차 검증
K-fold 교차검증 | Hold-out 교차검증 | Leave-P-Out 교차검증 |
학습데이터 k-1개 검증데이터 나머지 1개 |
무작위 7:3 or 8:2 | 검증데이터 P개 학습데이터 나머지 n-p개 P=1 → 리브-원-아웃 교차검증 검증데이터 구성 경우의 수 nCp |
4) 모수의 유의성 검증
- 가설이 맞는지 확인
모수 검정 | 비모수 검정 |
모집단의 분포를 가정 집단 간 차이 검정 |
① 모집단이 특정 분포를 가정하지 않는 경우 ② n=30 미만인 경우 ③ 서열/명목척도인 경우에 사용 |
검정통계량: 표본평균, 표준편차 검정력: 모수 > 비모수 검정 |
검정통계량: 순위, 부호 |
모집단에 대한 유의성 검증 | ||||
Z-검정 | 분산분석(ANOVA) | T-검정 | 카이제곱 검정 | F-검정 |
표본이 모집단에 속하는지 검증 |
집단의 평균 비교 | 단일: 평균 검증 양측: 평균 비교 |
(분산 알 때) 집단의 동질성 검정 |
분산 차이 유의성 검정 |
5) 적합도 검증
(1) Q-Q plot
- 정규분포에 얼마나 가까운지 시각적으로 표현
(2) 카이제곱 검정
- 독립인지 아닌지 확인, 범주형데이터에 사용, rxc분할표 사용
① 적합성 검정: 모집단 분포가 예상 분포와 동일한지
② 독립성 검정: 변수가 서로 독립적인지
③ 동일성 검정: 집단의 분포가 동일한지
- H0: "정규분포를 따른다", p-value=0.0026
☞ p-value < 0.05 → 귀무가설 기각함 → "정규분포를 따르지 않는다"
(3) 샤피로 윌크 검정
- 정규성 검증
(4) 콜모고로프 스미르노프 검정
- 예상 분포와 얼마나 잘 맞는지 검정
- 누적 분포함수를 비교, 연속형데이터 적용 가능
2. 분석모형 개선
1) 과대적합 방지
① 학습데이터 수 증가
- 추가데이터 확보 필요
- 추가데이터 확보 어려울 경우 → 오버샘플링, 언더샘플링 사용
② 가중치 규제
- 가중치 값을 제한하여 변수의 수를 줄이는 효과 (과대적합 문제 해결)
- 예) L1규제, L2규제
③ 교차 검증
- 다른 검증데이터를 사용
2) 매개변수 최적화
- 손실함수 값을 작게 만드는 매개변수의 최적값을 찾아 나가는 과정, 예) 가중치
* 손실함수: 결과값과 실제값의 차이
(1) 경사하강법
- 손실함수의 기울기를 통해 최적값을 구하는 방법
- 기울기=0일때, 손실함수가 최소화되는 매개변수 값이 됨 (전역 최솟값)
배치 경사하강법(BGD) | 확률적 경사하강법(SGD) | 미니 배치 경사하강법 |
전체 데이터 사용 | 무작위 1개 선택 | 무작위 10~1000개 선택 |
부드럽게 수렴 시간 오래 걸림 |
오차율 크고, 불안정하게 수렴 속도 빠름 |
BGD보다 빠름 SBD보다 오차율 낮음 |
(2) 모멘텀
- 확률적 경사하강법의 매개변수 변경방향에 가속도 부여
- 모멘텀 계수(α)는 하이퍼파라미터로 0.9로 설정
(3) AdaGrad
- 변수마다 학습률을 다르게 적용
- 값이 많이 변한 매개변수 → 학습률↓
값이 많이 변하지 않은 매개변수 → 학습률↑
- (장점) 자동으로 학습률 변경
(단점) 최적값 도달 전, 학습률이 0에 가까워짐
* 학습률: 매개변수가 변경되는 폭
(4) RMSProp
- AdaGrad 개선된 방법
- 하이퍼파라미터(ρ) 값↓ → 최근 기울기 더 많이 반영
(5) Adam = 모멘텀 + RMSProp
- 매개변수 변경방향 + 폭, 모두 적절히 조절 가능
3) 분석모형 융합 (앙상블 기법)
보팅(Voting) | 배깅(Bagging) | 부스팅(Boosting) | 스태킹(Stacking) |
여러 분석모형 결과를 종합 |
학습데이터에서 일정한 크기의 Bootstrap 샘플을 무작위 복원 추출해 학습 후, 종합하여 최종 분석모형 도출 |
약한 분석모형 여러개 연결하여 강한 분석모형 도출 |
여러 분석모형 예측을 종합 |
Hard voting(직접) : 많이 선택된 class Soft voting(간접) : class 확률값의 평균 |
과대적합↓, 분산↓ 회귀모형 : 예측값을 평균 분류모형 : 다수결로 종합 |
정답에 낮은 가중치, 오답에 높은 가중치 → 오답 정답률 개선 |
- |
- | 예) Random Forest | 예) Adaboost, XGboost, Light GBM |
Blender, Meta learner 사용 |
- 페이스팅(Pasting): 배깅과 동일하지만, 중복 허용 X
4) 최종모형 선정
① 최종모형 평가 기준 선정
- 정확도, 정밀도, 재현율 등 성능지표 활용
② 분석모형 평가
- 훈련에 사용하지 않은 데이터로 평가
- 예측값을 도출하여 최종모형 평가 기준 값들을 계산
③ 최종모형 선정
- 실제업무에 반영할 수 있는지도 함께 고려
'빅데이터 분석기사 > 필기 요약' 카테고리의 다른 글
[빅데이터분석기사/필기후기] 제6회 필기시험 후기(기출문제) (0) | 2023.04.09 |
---|---|
[빅데이터분석기사/필기요약] Part4-2. 분석결과 해석 및 활용 (0) | 2023.04.06 |
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_고급(2) (0) | 2023.04.04 |
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_고급(1) (0) | 2023.04.03 |
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(2) (0) | 2023.04.02 |