728x90
728x90
[빅데이터분석기사]의 필기시험 요약자료로
Part3. 빅데이터 모델링의 "Chapter1. 분석모형 설계"입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)
[목차]
Part3. 빅데이터 모델링
Part3-1. 분석모형 설계
1. 분석절차 수립
1) 분석모형 선정
2) 분석모형 정의
3) 분석모형 구축 절차
2. 분석 환경 구축
1) 분석 도구 선정
2) 데이터 분할
1. 분석절차 수립
1) 분석모형 선정
(1) 통계분석
① 기술통계: 데이터 이해 목적, 기초통계량
② 추론통계: 모집단 추정 및 가설검정(인과관계 분석)
(2) 데이터마이닝
- 상관관계 및 연관성 분석, 유용한 정보를 찾아내는 과정
분류분석 | 추정분석 | 예측분석 | 연관분석 | 군집분석 |
지도학습모형, 패턴학습하여 분류 |
결과값 추정 | 지도학습모형, 패턴학습하여 값을 예측 |
두 인자 간의 연관성 도출 |
비지도학습모형, 패턴유사 데이터 군집으로 묶음 |
로지스틱회귀, 나이브 베이즈, 의사결정나무, SVM,인공신경망 |
신경망 모형 | 회귀모형, 의사결정나무, 인공신경망 모형, 시계열 모형 |
장바구니 분석 | K-means, 계층적 군집분석 |
(3) 머신러닝
- 데이터를 학습, 학습한 정보를 바탕으로 결과 출력
지도학습 | 비지도학습 |
종속변수가 포함된 데이터를 학습 - 종속변수 연속형 → 수치예측 - 종속변수 범주형 → 분류예측 |
종속변수가 포함되지 않은 데이터를 학습, 패턴도출 |
회귀분석, 로지스틱 회귀분석, 나이브 베이즈, KNN, 의사결정나무, 인공신경망, SVM, 랜덤포레스트 |
군집화(K-means, SOM, 계층군집), 차원축소(주성분분석, 선형판별분석), 연관분석, 자율학습 인공신경망 |
(4) 데이터 유형에 따른 모형 구분
데이터 유형 | 종속변수 | |||
연속형 | 범주형 | 없음 | ||
독립 변수 |
연속형 | 회귀분석 트리 모형, 인공신경망, SVR, KNN |
로지스틱 회귀분석 트리모형, 인공신경망, SVM, KNN, 판별 분석 |
주성분분석, 군집분석 |
범주형 | 회귀분석, t-test, ANOVA, 트리모형, 인공신경망 |
로지스틱 회귀모형, 카이제곱검정, 트리모형, 인공신경망, 나이브베이즈 |
연관분석 | |
연속형+ 범주형 |
회귀분석, 트리모형, 인공신경망 |
트리모형, 인공신경망 | 상관분석 |
2) 분석모형 정의
(1) 파라미터와 하이퍼파라미터
파라미터 | 하이퍼파라미터 |
모형 내부 요소 | 모형 외부 요소 |
모형성능에 직접적인 영향 | 모형성능에 간접적인 영향 |
학습에 의해 자동 결정 | 사용자가 결정 |
인공신경망의 가중치, SVM의 서포트벡터, 선형회귀 모형의 결정계수 |
인공신경망의 학습률, KNN의 K의 개수, 서포트벡터머신의 코스트C |
(2) 하이퍼파라미터 튜닝
① 매뉴얼 서치
- 사용자가 직감 또는 경험에 근거
- 비효율적인 방법
② 그리드 서치
- 모든 조합을 시도 (후보가 아닌 값은 시도 X)
- 시간이 오래 걸림
③ 랜덤 서치
- 범위 지정, 무작위 표본추출로 생성한 조합을 시도
- 상대적으로 중요한 값을 많이 탐색
(3) 분석모형 구축의 절차
① 요건정의 | ② 모델링 | ③ 검증 및 테스트 | ④ 적용 |
요구사항 도출 (요건 도출) |
데이터마트 설계 및 구축 (데이터수집, 전처리) |
운영환경 테스트 (가상) |
운영시스템 적용 (실제) |
분석 추진계획 수립 (가능성검토, 환경설정, WBS작성) |
탐색적분석 및 유의변수 도출 |
비즈니스 영향도 평가 | 주기적 모델 업데이트 (재평가, 재학습) |
요구사항 확정 | 모델링 (모형후보선정 → 데이터분할 → 모형학습 및 최적화) |
||
모델 성능평가 |
2. 분석기법 적용
1) 분석 도구 선정
R | Python | SAS 및 SPSS |
- S언어 기반 - 분석특화, 시각화 강점 - 무료, 업데이터 빠름 |
- C언어 기반 - 범용성 높은 언어 - 웹/프로그램 개발 활용 - 무료, 업데이터 빠름 |
- 유료, 업데이트 느림 |
2) 데이터 분할
- 과적합 방지, 일반화 성능 향상
Hold-out | K-fold 교차검증 | Bootstrap |
랜덤추출로 데이터 분할, 보편적 방법 |
중복되지 않는 K개 데이터로 분할 |
복원추출을 통해 동일크기의 샘플데이터 추출 (분포가 치우쳐 있거나, 건수가 작을 때 사용) |
학습/검증: 60~80% 테스트: 20~40% |
학습: K-1개, 검증: 나머지 1개 (검증데이터 바꾸며 K번 반복) |
학습(63.2%): 샘플 검증/테스트: 나머지 |
* 학습/검증데이터: 학습 모델 성능 검증
* 테스트/평가용데이터: 최종 모델 성능 검증 (학습X)
728x90
728x90
'빅데이터 분석기사 > 필기 요약' 카테고리의 다른 글
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(2) (0) | 2023.04.02 |
---|---|
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(1) (0) | 2023.04.01 |
[빅데이터분석기사/필기요약] Part2-3. 통계기법 이해 (0) | 2023.03.28 |
[빅데이터분석기사/필기요약] Part2-2. 데이터 탐색 (0) | 2023.03.25 |
[빅데이터분석기사/필기요약] Part2-1. 데이터 전처리 (0) | 2023.03.23 |