빅데이터 분석기사/필기 요약

[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(1)

✨️데이터분석가✨️ 2023. 4. 1. 00:44
728x90
728x90

[빅데이터분석기사]의 필기시험 요약자료로
Part3. 빅데이터 모델링의 "Chapter2. 분석기법 적용"입니다.

이번 내용은 자격증 공부가 아니더라도 통계 공부에 많은 도움이 되는 자료입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)


[목차]
Part3. 빅데이터 모델링
 Part3-2. 분석기법 적용
           1. 분석기법
              1) 회귀분석
              2) 로지스틱 회귀분석
              3) 의사결정나무
              4) 인공신경망

1. 분석기법

1) 회귀분석

- 독립변수들이 종속변수에 미치는 영향을 추정

 

(1) 회귀분석의 가정

선형성 독립성 등분산성 정규성
독립변수&
종속변수는
선형적
단순회귀
 : 잔차 & 독립변수가 독립

다중회귀
 : 독립변수 간에 독립
잔차 고르게 분포 잔차항이 정규분포
잔차항의 평균0, 분산일정
Q-Q plot에서 잔차 우상향

 

(2) 회귀분석 종류
단순선형 회귀분석

- 독립변수와 종속변수가 한 개씩 있고, 오차항이 있는 선형관계 (직선)

회귀계수 추정 단순선형 회귀분석 검정
최소제곱법 사용 회귀계수(β) = 0인과관계 없음
결정계수(R²)는 회귀모형의 설명력 지표
                             → 회귀선의 정확도 평가
R² = SSR / SST,   0≤≤1
SST = SSR + SSE

② 다중선형 회귀분석

- 독립변수 k개인 경우, 최소제곱법 사용

- 독립변수의 가중치 역할하는 회귀계수 계산

다중선형 회귀분석_통계적 유의성 다중선형 회귀분석_검정
: F-값 = MSR / MSE
  (MSR=SSR/k,  MSE=SSE/(n=k-1)
: F-통계량↑ → P-value↓
  귀무가설 기각 → 통계적으로 유의함
유의성: t-통계량
설명력: 결정계수
적합성: 산점도
다중공선성
     : 변수들 사이에 선형관계 존재

       (부정적 영향 미치는 것을 의미)
        → 문제있는 변수 제거 or 주성분 회귀모형 적용
[다중공선성 의심]
: R²↑, P-value↑ → 유의하지 않음
: 분산팽창요인 10이상

③ 규제가 있는 회귀분석

- 규제는 다중공선성 문제 방지를 위해, 가중치를 제한하여 차수를 감소시키는 것

Ridge 회귀 Lasso 회귀 Elastic net 회귀
: 높은 상관관계 변수 간
  검정오차 최소모델을 찾는 것
: 변수 선택을 통해
  검정오차 최소모델을 찾는 것

: 알파값이 설정되면
  중요하지 않은 변수들의
  가중치가 0이 되어 제거
: Ridge + Lasso
  규제항을 더해 사용

: 어느 방식의 비중을
  크게 할 것인지 결정






L2규제
: 모든 파라미터 제곱만큼의
  크기를 규제
: 가중치가 퍼지도록 하는 효과
L1규제
: 가중치 벡터를 0으로 규제
  → 의미있는 변수 선택 효과

: 다중공선성 있는 경우
  → Ridge 회귀보다 성능↓
 
: 훈련끝나면 규제 없는
  성능지표로 평가

: α는 규제 정도를 조절하는 것
: α↑ → 모든 가중치 = 0

 

 

2) 로지스틱 회귀분석

- 종속변수가 범주형일 경우 사용

Odds 적용 logit 변환 Sigmoid 함수 적용
Odds = P / (1-P) = ax + b
Odds = 0 ~ ∞,  추가변환필요
logit(P)
= log(P/1-P)
= log(Odds)
* P는 사건발생확률
y = 0 ~ 1의
확률값으로 변환
Odds란 사건발생확률이
발생할 확률의 몇 배인지를 의미

 

(1) 로지스틱 회귀분석 적합성
① 모형의 유의성

- 이탈도↓ → 통계적으로 유의

② 계수의 유의성

- 와드(ward)검정을 통해 독립변수가 종속변수에 미치는 영향 확인

③ 모형의 설명력

- 의사결정계수 사용하는 것이 일반적 (보통 결정계수가 낮아서)

- AIC↓설명력 좋음

 

(2) 로지스틱 회귀분석 종류
① 이항 로지스틱 회귀분석
: 종속변수 범주가 2개

② 다항(=분화) 로지스틱 회귀분석: 종속변수 2개 이상

③ 서수 로지스틱 회귀분석: + 순서

 

(3) 회귀분석 vs. 로지스틱 회귀분석 비교

선형 회귀분석 로지스틱 회귀분석
x, y값 : -∞ ~ ∞
정규분포 따름
y값 : 0 ~ 1
이항분포 따름

 

 

3) 의사결정나무

- 소집단으로 분류하거나 예측하는데 사용

 

(1) 의사결정나무 구조
- 뿌리 → 중간 → 끝

- 부모 → 자식

- 가지(선), 깊이(마디 개수)

 

(2) 의사결정나무 분석과정

① 성장

- [최적 분리규칙] + [적절한 정지규칙] 만족 시, 성장 중단

- 불순도 감소량을 가장 크게 하는 분할이어야 함

② 정지 규칙

- 더 이상 트리가 분리되지 않도록 하는 규칙, 과적합 방지

③ 가지치기

- 모형의 복잡도 과정

④ 노드 분리기준

- 마디의 순수도↑, 불순도↓ 방향

종속변수
이산형 연속형
CHAID CART C4.5 CHAID CART
카이제곱 통계량 지니 지수 엔트로피 지수 ANOVA, F-통계량 분산 감소량
P-value↓
→ 귀무가설 기각
지니 지수↓
→ 불순도↓
엔트로피 지수↓
→ 불순도↓
P-value↓
→ 가지분할
분산 감소량↑
→ 가지분할

 

(3) 의사결정나무 장/단점

장점 단점
- 해석의 용이성, 새로운 데이터에 적용 쉬움
- 상호작용 효과 해석 가능
  (영향 정도 쉽게 파악)

- 비모수적 모형, 이상치에 민감하지 않음
- 선형성, 정규성, 등분산성 정 불필요
- 빠름, 유연성/정확성 높음
- 비연속성: 연속형 변수비연속적 값으로 취급
- 선형성 결여: 변수별 고유한 영향력 해석 어려움
- 비안정성: 과적합 발생 가능성 큼
                    (교차 타당성 평가 과정 필요)

 

 

4) 인공신경망 분석

- 뉴런 or 노드들이 복잡하게 연결된 구조

- 가중치로 의사결정
- 지도/비지도학습 모두 활용 가능

 

(1) 인공신경망 구조
활성함수

- 입력 값을 비선형 함수(활성함수, 가중치)에 통과시킨 후 노드로 전달 

   → 활성화 여부 결정 → 비선형성 표현 가능

Sigmoid 함수 ReLU 함수 Tanh 함수
: 로지스틱 함수
: 0 ~ 1 값 출력
: 기울기 소실 문제 생김
: 속도 느림
: 0보다 작으면 → 0,
  0보다 크면 → 입력값 출력
: 기울기 소실 문제 해결
: 0보다 작으면 뉴런 작동 X
: Sigmoid 함수 확장 형태
: -1 ~ 1 값 출력
: 속도 빠름
     

신경망의 계층구조

입력층 은닉층 출력층
: 데이터 입력받음 : 가중합과 편향 계산
: 활성함수에 적용해 결과 산출
: 여러개의 층 가능
: 활성함수의 결과
: 분류문제는 라벨 확률 표시

역전파 알고리즘

- 인공신경망 학습의 일반적인 알고리즘

- 결과값의 오차를 역으로 입력층으로 전파

- 오차가 최소가 될 수 있도록 가중

- 입력층보다 빠르고 정확

 

(2) 인공신경망 종류

단층 퍼셉트론 다층 퍼셉트론
: AND, OR 연산 가능
: XOR은 선형 분리 X
: 은닉층 X
: 입력층/출력층 사이에 은닉층 추가
   비선형 데이터에 대해 학습
: 활성화함수로 Sigmoid 함수 사용
: XOR 문제 해결
: 은닉층 O
[문제점]
과적합: 학습데이터가 적어 예측을 잘 못함
기울기 소실: Sigmoid 함수는 0으로 수렴, 기울기 소실 문제 발생 → ReLU 함수로 해결
                             학습률 낮음 → 배치정규화로 해결

 

(3) 인공신경망 장/단점

장점 단점
: 스스로 가중치 학습
: 다양하고 은 데이터에 효과적
: 패턴인식, 분류, 예측에 효과적
: 비선형 문제 해결 가능
: Noise에 민감하지 않음
: 시간 오래 걸림
: 가중치의 신뢰도 낮음
: 결과해석 어려움
: 은닉층/은닉노드 수 결정 어려움

 

728x90
728x90