빅데이터 분석기사/필기 요약

[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_고급(1)

✨️데이터분석가✨️ 2023. 4. 3. 23:59
728x90
728x90

[빅데이터분석기사]의 필기시험 요약자료로
Part3. 빅데이터 모델링의 "Chapter2. 분석기법 적용"입니다.

이번 내용은 자격증 공부가 아니더라도 통계 공부에 많은 도움이 되는 자료입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)


[목차]
Part3. 빅데이터 모델링
 Part3-2. 분석기법 적용
           2. 고급 분석기법
              1) 범주형 자료 분석
              2) 다변량 분석
              3) 시계열 분석
              4) 베이지안 기법

2. 고급 분석기법

1) 범주형 자료 분석

독립변수 종속변수 분석방법
범주형 연속형 t-검정, 분산분석
범주형 범주형 분할표 분석, 카이제곱 검정, 피셔의 정확도 검정
연속형 범주형 로지스틱 회귀분석

 

(1) t-검정

- 두 집단 간의 평균을 비교하는 모수적 통계방법

- 가설검정, 정규성, 등분산성, 독립성 가정

단일표본 - H0: 모집단 평균 = μ

독립표본 - H0: 두 집단의 평균이 같다

대응표본 - H0: 사전평균 = 사후평균

 

(2) 분산분석

- 둘 이상 집단의 평균을 비교하는 모수적 통계방법

- 정규성, 등분산성, 독립성 가정

- F분포로 가설 검정

일원분산분석(one-way ANOVA): 범주형 변수한 개인 경우

- H0: 모든 집단평균은 같다

이원분산분석(two-way ANOVA): 범주형 변수두 개 이상인 경우

- H0: 두 변수상호작용효과가 없다

 

(3) 분할표 분석

구분 사건 발생 사건 미발생
A 집단 a b a+b
B 집단 c d c+d

상대위험도(RR)

: 두 집단의 사건발생 확률의 비

= A 발생 확률 / B 발생 확률 = (a/a+b) / (c/c+d)

승산비(OR) = 오즈비 = 교차비

= Odds(A) / Odds(B) = ad/bc

* Odds: 사건발생 확률과 사건이 발생하지 않을 확률의 비

  Odds(A) = (a/a+b) / (b/a+b) = a/b, Odds(B) = c/d

상대위험도(RR) 승산비(OR) 해석
RR < 1 OR < 1 A 발생 확률이 낮음
RR = 1 OR = 1 연관성 없음
RR > 1 OR > 1 A 발생 확률이 높음
[코호트 연구]
: 연관성을 연구
: 통계적 인자 공유하는 집단
상대위험도 사용

[환자-대조군 연구]
: 환자/대조군 따로 선정하고
  위험인자를 나중에 조사
승산비 사용
 

 

(4) 카이제곱 검정

적합도 검정 - H0: 특정분포 = 기대분포

동질성 검정 - H0: 두 집단의 분포가 같다

독립성 검정 - H0: 두 변수는 연관성이 없다

 

(5) 피셔의 정확 검정

- 모든 경우의 수를 직접 확인

- 표본 수 or 빈도 수가 작은 경우 사용

- H0: 두 변수는 연관성이 없다

- 초기하 분포 기반

* 초기하 분포: N개 모집단 중 k개 성공, n번 비복원 추출에서 x개 성공일 확률

 

 

2) 다변량 분석

(1) 상관관계 분석

피어슨 상관계수(r): 비선형 관계 측정 X

스피어만 상관계수(p): 순위의 상관계수, 비선형적 관계

 

(2) 다차원 척도법(MDS)

- 차원축소로 개체들의 관계를 상대적 위치로 시각화하는 분석

연속형 변수 순서형 변수
거리행렬 이용한
계량적 다차원 척도법
순서척도를 거리로 변환한
비계량적 다차원 척도법 사용

유클리드 거리행렬로 개체들의 유사성 측정

② 개체를 점으로 배열

Stress value를 부적합도로 측정, 최소가 되도록 좌표 조정

* Stress value = 0 ~ 0.1 → 매우 좋음  / 0.1 ~ 0.2 좋음  / 0.2↑ → 나쁨

 

(3) 다변량 분산분석(MANOVA)

- 2개 이상의 종속변수에 대한 분산분석

- 종속변수 간 상관관계 있는 경우 → 결합된 차이 확인

  종속변수 간 상관관계 없는 경우 → 개별로 분산분석

- 정규성, 등분산성, 독립성 가정

- 여러번 실시할 경우 1종 오류↑

- H0: 모든 집단의 평균벡터가 같다

 

(4) 주성분분석(PCA)

- 전체 변동을 최대한 보존하는 주성분을 생성하는 차원축소 방법

- 주성분 개수 선택 기준: 개별 고윳값, 정보량의 비율, Scree plot

주성분 누적 기여율
분산을 설명하는 설명변수들의 선형 결합
→ 다중공선성 문제 해결
상위 n개 주성분으로 설명할 수 있는
정보량의 비율
< Scree plot >
< 행렬도: Score plot + Loard plot >

 

(5) 요인분석(FA)

- 상관관계로 공통요인을 찾아 데이터를 요약하고 차원축소하는 분석

- 정규성 가정, 분산 동일, 모든 변수 연속형

- 요인추출 방법: 주성분분석, 공통요인법

- 요인회전 방법: 직각회전(베리멕스, 쿼티멕스, 이퀘멕스), 사각회전(오블리민)

주성분분석 요인분석
- 차원축소 분석
- 사전분석
- 선형적 결합 중심
- 주성분 추출
- 주성분 간 중요도 차이 있음
- 차원축소 분석
- 사전분석
- 잠재적 결합 중심
- 잠재변수 생성
- 새로운 변수들은 서로 대등

 

(6) 판별분석

- 연속형 독립변수들의 선형조합으로 분류/예측하는 분석 (범주형 종속변수)

- 정규성, 등분산성, 다변량 정규분포 가정

- 오분류율이 최소가 되는 판별함수 도출

* 판별함수: 판별점수 산출한 후, 독립변수들의 선형 결합으로 도출

    Z = a₁X + a₂X₂ + ... + anXn 

   판별함수의 수 = Min(집단의 수 - 1, 독립변수의 수)

 

 

3) 시계열분석

정상성 비정상성
- 시점 상관없이
  일정한 데이터
- 백색잡음과정
  (회귀분석의
  오차항과 비슷)
- 대부분 비정상 시계열
- 자기상관함수(ACF): 선형 상관관계 함수
- 부분자기상관함수(PACF): 다른 요인을 제외한 자기상관함수
<평균이 시점에 의존>
<분산이 시점에 의존>
<공분산 시점에 의존>
  [정상화 방법]
이상치 제거
평균 일정 X차분을 통해 정상화 (현시점 - 전시점 값)
분산 일정 X변환을 통해 정상화

 

(1) 회귀분석

- 정규성, 등분산성, 독립성 가정

- 예) 다항추세모형, 선형다항식추세모형, 상수평균모형, 계절추세모형, 선형/계절추세모형

 

(2) 분해법

- 서로 독립이라는 가정을 기반으로 분해

- 가법모형(+), 승법모형(x)

체계적
성분
순환성분
추세성분
계절성분
                     불규칙성분

 

(3) 이동평균법

- 동일 가중치 부여, 계절성분과 불규칙성분 제거

 

(4) 지수평활법

- 최근 관측치에 높은 가중치 부여

- 예) 단순지수평활법, 이중지수평활법, 계절지수평활법, 선형/계절추세모형

 

(5) AR ~ (9) SARIMA

자기회귀모형
AR(p)
- 이전 값이 이후 값에 영향을 미치는 상황
- 과거 관측치로 설명
이동평균모형
MA(q)
- 평균이 시간에 따라 변화하는 경향
- 과거의 오차항으로 설명
자기회귀 이동평균모형
ARMA(p,q)
- AR모형 + MA모형 결합한 모형
- 과거 관측치와 오차항으로 설명
자기회귀 누적 이동평균모형
ARIMA(p,d,q)
- d차로 차분 변환 과정을 포함한 ARMA모형
계절형 자기회귀 이동평균모형
(SARIMA)
- 계절과 비계절 성분에 대한 모형을 순차적으로 적합

 

(10) 시계열모형 식별방법

 ACF(자기상관함수): 시차에 따른 자기상관을 의미, 시차↑ → ACF=0

- 정상시계열: 빠르게 0으로 수렴

- 비정상시계열: 천천히 감소

PACF(편자기상관함수): 시차에 따른 편자기상관을 의미

- 시차가 다른 두 데이터 간의 상호 연관성

 

 

4) 베이지안 기법

(1) 조건부확률

- 특정 사건이 발생했다는 가정하에 다른 사건 발생 확률

 

(2) 베이즈 정리

- 사전/사후 확률 사이의 관계

- 신규 데이터를 기반으로 베이지안 확률을 갱신하는 방법

* 베이지안 확률: 특정 사건이 포함된다는 주장에 대한 신뢰도 의미

- P(H): 사전확률

- P(H|E): 사후확률, 사건E 발생 후 갱신된 H의 확률

 

(3) 나이브 베이즈

- 모든 독립변수가 서로 동등하고 독립적으로 기여한다고 가정

- 관측치가 종속변수 각 범주에 속할 확률을 구하고, 가장 큰 범주에 할당

- 쉽고, 빠름, 실시간/텍스트분류에 사용

- 신규데이터는 분류 X → Laplace smoothing 기법으로 보정

 

728x90
728x90