[빅데이터분석기사]의 필기시험 요약자료로
Part3. 빅데이터 모델링의 "Chapter2. 분석기법 적용"입니다.
이번 내용은 자격증 공부가 아니더라도 통계 공부에 많은 도움이 되는 자료입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)
[목차]
Part3. 빅데이터 모델링
Part3-2. 분석기법 적용
1. 분석기법
1) 회귀분석
2) 로지스틱 회귀분석
3) 의사결정나무
4) 인공신경망
1. 분석기법
1) 회귀분석
- 독립변수들이 종속변수에 미치는 영향을 추정
(1) 회귀분석의 가정
선형성 | 독립성 | 등분산성 | 정규성 |
독립변수& 종속변수는 선형적 |
단순회귀 : 잔차 & 독립변수가 독립 다중회귀 : 독립변수 간에 독립 |
잔차 고르게 분포 | 잔차항이 정규분포 잔차항의 평균0, 분산일정 Q-Q plot에서 잔차 우상향 |
(2) 회귀분석 종류
① 단순선형 회귀분석
- 독립변수와 종속변수가 한 개씩 있고, 오차항이 있는 선형관계 (직선)
회귀계수 추정 | 단순선형 회귀분석 검정 | |
최소제곱법 사용 | 회귀계수(β) = 0 → 인과관계 없음 결정계수(R²)는 회귀모형의 설명력 지표 → 회귀선의 정확도 평가 |
|
R² = SSR / SST, 0≤R²≤1 SST = SSR + SSE |
② 다중선형 회귀분석
- 독립변수 k개인 경우, 최소제곱법 사용
- 독립변수의 가중치 역할하는 회귀계수 계산
다중선형 회귀분석_통계적 유의성 | 다중선형 회귀분석_검정 |
: F-값 = MSR / MSE (MSR=SSR/k, MSE=SSE/(n=k-1) : F-통계량↑ → P-value↓ →귀무가설 기각 → 통계적으로 유의함 |
① 유의성: t-통계량 ② 설명력: 결정계수 ③ 적합성: 산점도 ④ 다중공선성 : 변수들 사이에 선형관계 존재 (부정적 영향 미치는 것을 의미) → 문제있는 변수 제거 or 주성분 회귀모형 적용 [다중공선성 의심] : R²↑, P-value↑ → 유의하지 않음 : 분산팽창요인 10이상 |
③ 규제가 있는 회귀분석
- 규제는 다중공선성 문제 방지를 위해, 가중치를 제한하여 차수를 감소시키는 것
Ridge 회귀 | Lasso 회귀 | Elastic net 회귀 |
: 높은 상관관계 변수 간 검정오차 최소모델을 찾는 것 |
: 변수 선택을 통해 검정오차 최소모델을 찾는 것 : 알파값이 설정되면 중요하지 않은 변수들의 가중치가 0이 되어 제거됨 |
: Ridge + Lasso로 규제항을 더해 사용 : 어느 방식의 비중을 크게 할 것인지 결정 |
L2규제 : 모든 파라미터 제곱만큼의 크기를 규제 : 가중치가 퍼지도록 하는 효과 |
L1규제 : 가중치 벡터를 0으로 규제 → 의미있는 변수 선택 효과 : 다중공선성 있는 경우 → Ridge 회귀보다 성능↓ |
|
: 훈련끝나면 규제 없는 성능지표로 평가 : α는 규제 정도를 조절하는 것 : α↑ → 모든 가중치 = 0 |
2) 로지스틱 회귀분석
- 종속변수가 범주형일 경우 사용
① Odds 적용 | ② logit 변환 | ③ Sigmoid 함수 적용 |
Odds = P / (1-P) = ax + b Odds = 0 ~ ∞, 추가변환필요 |
logit(P) = log(P/1-P) = log(Odds) * P는 사건발생확률 |
y = 0 ~ 1의 확률값으로 변환 |
Odds란 사건발생확률이 발생할 확률의 몇 배인지를 의미 |
(1) 로지스틱 회귀분석 적합성
① 모형의 유의성
- 이탈도↓ → 통계적으로 유의
② 계수의 유의성
- 와드(ward)검정을 통해 독립변수가 종속변수에 미치는 영향 확인
③ 모형의 설명력
- 의사결정계수 사용하는 것이 일반적 (보통 결정계수가 낮아서)
- AIC↓ → 설명력 좋음
(2) 로지스틱 회귀분석 종류
① 이항 로지스틱 회귀분석: 종속변수 범주가 2개
② 다항(=분화) 로지스틱 회귀분석: 종속변수 2개 이상
③ 서수 로지스틱 회귀분석: + 순서
(3) 회귀분석 vs. 로지스틱 회귀분석 비교
선형 회귀분석 | 로지스틱 회귀분석 |
x, y값 : -∞ ~ ∞ 정규분포 따름 |
y값 : 0 ~ 1 이항분포 따름 |
3) 의사결정나무
- 소집단으로 분류하거나 예측하는데 사용
(1) 의사결정나무 구조
- 뿌리 → 중간 → 끝
- 부모 → 자식
- 가지(선), 깊이(마디 개수)
(2) 의사결정나무 분석과정
① 성장
- [최적 분리규칙] + [적절한 정지규칙] 만족 시, 성장 중단
- 불순도 감소량을 가장 크게 하는 분할이어야 함
② 정지 규칙
- 더 이상 트리가 분리되지 않도록 하는 규칙, 과적합 방지
③ 가지치기
- 모형의 복잡도↓ 과정
④ 노드 분리기준
- 마디의 순수도↑, 불순도↓ 방향
종속변수 | ||||
이산형 | 연속형 | |||
CHAID | CART | C4.5 | CHAID | CART |
카이제곱 통계량 | 지니 지수 | 엔트로피 지수 | ANOVA, F-통계량 | 분산 감소량 |
P-value↓ → 귀무가설 기각 |
지니 지수↓ → 불순도↓ |
엔트로피 지수↓ → 불순도↓ |
P-value↓ → 가지분할 |
분산 감소량↑ → 가지분할 |
(3) 의사결정나무 장/단점
장점 | 단점 |
- 해석의 용이성, 새로운 데이터에 적용 쉬움 - 상호작용 효과 해석 가능 (영향 정도 쉽게 파악) - 비모수적 모형, 이상치에 민감하지 않음 - 선형성, 정규성, 등분산성 가정 불필요 - 빠름, 유연성/정확성 높음 |
- 비연속성: 연속형 변수를 비연속적 값으로 취급 - 선형성 결여: 변수별 고유한 영향력 해석 어려움 - 비안정성: 과적합 발생 가능성 큼 (교차 타당성 평가 과정 필요) |
4) 인공신경망 분석
- 뉴런 or 노드들이 복잡하게 연결된 구조
- 가중치로 의사결정
- 지도/비지도학습 모두 활용 가능
(1) 인공신경망 구조
① 활성함수
- 입력 값을 비선형 함수(활성함수, 가중치)에 통과시킨 후 노드로 전달
→ 활성화 여부 결정 → 비선형성 표현 가능
Sigmoid 함수 | ReLU 함수 | Tanh 함수 |
: 로지스틱 함수 : 0 ~ 1 값 출력 : 기울기 소실 문제 생김 : 속도 느림 |
: 0보다 작으면 → 0, 0보다 크면 → 입력값 출력 : 기울기 소실 문제 해결 : 0보다 작으면 뉴런 작동 X |
: Sigmoid 함수 확장 형태 : -1 ~ 1 값 출력 : 속도 빠름 |
② 신경망의 계층구조
입력층 | 은닉층 | 출력층 |
: 데이터 입력받음 | : 가중합과 편향 계산 : 활성함수에 적용해 결과 산출 : 여러개의 층 가능 |
: 활성함수의 결과 : 분류문제는 라벨 확률 표시 |
③ 역전파 알고리즘
- 인공신경망 학습의 일반적인 알고리즘
- 결과값의 오차를 역으로 입력층으로 전파
- 오차가 최소가 될 수 있도록 가중
- 입력층보다 빠르고 정확
(2) 인공신경망 종류
단층 퍼셉트론 | 다층 퍼셉트론 |
: AND, OR 연산 가능 : XOR은 선형 분리 X : 은닉층 X |
: 입력층/출력층 사이에 은닉층 추가해 비선형 데이터에 대해 학습 : 활성화함수로 Sigmoid 함수 사용 : XOR 문제 해결 : 은닉층 O |
[문제점] ① 과적합: 학습데이터가 적어 예측을 잘 못함 ② 기울기 소실: Sigmoid 함수는 0으로 수렴, 기울기 소실 문제 발생 → ReLU 함수로 해결 학습률 낮음 → 배치정규화로 해결 |
(3) 인공신경망 장/단점
장점 | 단점 |
: 스스로 가중치 학습 : 다양하고 많은 데이터에 효과적 : 패턴인식, 분류, 예측에 효과적 : 비선형 문제 해결 가능 : Noise에 민감하지 않음 |
: 시간 오래 걸림 : 가중치의 신뢰도 낮음 : 결과해석 어려움 : 은닉층/은닉노드 수 결정 어려움 |
'빅데이터 분석기사 > 필기 요약' 카테고리의 다른 글
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_고급(1) (0) | 2023.04.03 |
---|---|
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(2) (0) | 2023.04.02 |
[빅데이터분석기사/필기요약] Part3-1. 분석모형 설계 (0) | 2023.03.29 |
[빅데이터분석기사/필기요약] Part2-3. 통계기법 이해 (0) | 2023.03.28 |
[빅데이터분석기사/필기요약] Part2-2. 데이터 탐색 (0) | 2023.03.25 |