[빅데이터분석기사]의 필기시험 요약자료로
Part3. 빅데이터 모델링의 "Chapter2. 분석기법 적용"입니다.
이번 내용은 자격증 공부가 아니더라도 통계 공부에 많은 도움이 되는 자료입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)
[목차]
Part3. 빅데이터 모델링
Part3-2. 분석기법 적용
2. 고급 분석기법
1) 범주형 자료 분석
2) 다변량 분석
3) 시계열 분석
4) 베이지안 기법
2. 고급 분석기법
1) 범주형 자료 분석
독립변수 | 종속변수 | 분석방법 |
범주형 | 연속형 | t-검정, 분산분석 |
범주형 | 범주형 | 분할표 분석, 카이제곱 검정, 피셔의 정확도 검정 |
연속형 | 범주형 | 로지스틱 회귀분석 |
(1) t-검정
- 두 집단 간의 평균을 비교하는 모수적 통계방법
- 가설검정, 정규성, 등분산성, 독립성 가정
① 단일표본 - H0: 모집단 평균 = μ
② 독립표본 - H0: 두 집단의 평균이 같다
③ 대응표본 - H0: 사전평균 = 사후평균
(2) 분산분석
- 둘 이상 집단의 평균을 비교하는 모수적 통계방법
- 정규성, 등분산성, 독립성 가정
- F분포로 가설 검정
① 일원분산분석(one-way ANOVA): 범주형 변수가 한 개인 경우
- H0: 모든 집단의 평균은 같다
② 이원분산분석(two-way ANOVA): 범주형 변수가 두 개 이상인 경우
- H0: 두 변수는 상호작용효과가 없다
(3) 분할표 분석
구분 | 사건 발생 | 사건 미발생 | 합 |
A 집단 | a | b | a+b |
B 집단 | c | d | c+d |
① 상대위험도(RR)
: 두 집단의 사건발생 확률의 비
= A 발생 확률 / B 발생 확률 = (a/a+b) / (c/c+d)
② 승산비(OR) = 오즈비 = 교차비
= Odds(A) / Odds(B) = ad/bc
* Odds: 사건발생 확률과 사건이 발생하지 않을 확률의 비
Odds(A) = (a/a+b) / (b/a+b) = a/b, Odds(B) = c/d
상대위험도(RR) | 승산비(OR) | 해석 |
RR < 1 | OR < 1 | A 발생 확률이 낮음 |
RR = 1 | OR = 1 | 연관성 없음 |
RR > 1 | OR > 1 | A 발생 확률이 높음 |
[코호트 연구] : 연관성을 연구 : 통계적 인자 공유하는 집단 → 상대위험도 사용 |
[환자-대조군 연구] : 환자/대조군 따로 선정하고 위험인자를 나중에 조사 → 승산비 사용 |
(4) 카이제곱 검정
① 적합도 검정 - H0: 특정분포 = 기대분포
② 동질성 검정 - H0: 두 집단의 분포가 같다
③ 독립성 검정 - H0: 두 변수는 연관성이 없다
(5) 피셔의 정확 검정
- 모든 경우의 수를 직접 확인
- 표본 수 or 빈도 수가 작은 경우 사용
- H0: 두 변수는 연관성이 없다
- 초기하 분포 기반
* 초기하 분포: N개 모집단 중 k개 성공, n번 비복원 추출에서 x개 성공일 확률
2) 다변량 분석
(1) 상관관계 분석
① 피어슨 상관계수(r): 비선형 관계 측정 X
② 스피어만 상관계수(p): 순위의 상관계수, 비선형적 관계
(2) 다차원 척도법(MDS)
- 차원축소로 개체들의 관계를 상대적 위치로 시각화하는 분석
연속형 변수 | 순서형 변수 |
거리행렬 이용한 계량적 다차원 척도법 |
순서척도를 거리로 변환한 비계량적 다차원 척도법 사용 |
① 유클리드 거리행렬로 개체들의 유사성 측정
② 개체를 점으로 배열
③ Stress value를 부적합도로 측정, 최소가 되도록 좌표 조정
* Stress value = 0 ~ 0.1 → 매우 좋음 / 0.1 ~ 0.2 → 좋음 / 0.2↑ → 나쁨
(3) 다변량 분산분석(MANOVA)
- 2개 이상의 종속변수에 대한 분산분석
- 종속변수 간 상관관계 있는 경우 → 결합된 차이 확인
종속변수 간 상관관계 없는 경우 → 개별로 분산분석
- 정규성, 등분산성, 독립성 가정
- 여러번 실시할 경우 → 1종 오류↑
- H0: 모든 집단의 평균벡터가 같다
(4) 주성분분석(PCA)
- 전체 변동을 최대한 보존하는 주성분을 생성하는 차원축소 방법
- 주성분 개수 선택 기준: 개별 고윳값, 정보량의 비율, Scree plot
주성분 | 누적 기여율 |
분산을 설명하는 설명변수들의 선형 결합 → 다중공선성 문제 해결 |
상위 n개 주성분으로 설명할 수 있는 정보량의 비율 |
< Scree plot >![]() |
< 행렬도: Score plot + Loard plot >![]() |
(5) 요인분석(FA)
- 상관관계로 공통요인을 찾아 데이터를 요약하고 차원축소하는 분석
- 정규성 가정, 분산 동일, 모든 변수 연속형
- 요인추출 방법: 주성분분석, 공통요인법
- 요인회전 방법: 직각회전(베리멕스, 쿼티멕스, 이퀘멕스), 사각회전(오블리민)
주성분분석 | 요인분석 |
- 차원축소 분석 - 사전분석 - 선형적 결합 중심 - 주성분 추출 - 주성분 간 중요도 차이 있음 |
- 차원축소 분석 - 사전분석 - 잠재적 결합 중심 - 잠재변수 생성 - 새로운 변수들은 서로 대등 |
(6) 판별분석
- 연속형 독립변수들의 선형조합으로 분류/예측하는 분석 (범주형 종속변수)
- 정규성, 등분산성, 다변량 정규분포 가정
- 오분류율이 최소가 되는 판별함수 도출
* 판별함수: 판별점수 산출한 후, 독립변수들의 선형 결합으로 도출
Z = a₁X₁ + a₂X₂ + ... + anXn
판별함수의 수 = Min(집단의 수 - 1, 독립변수의 수)
3) 시계열분석
정상성 | 비정상성 | ||
- 시점 상관없이 일정한 데이터 - 백색잡음과정 (회귀분석의 오차항과 비슷) |
- 대부분 비정상 시계열 - 자기상관함수(ACF): 선형 상관관계 함수 - 부분자기상관함수(PACF): 다른 요인을 제외한 자기상관함수 |
||
![]() |
<평균이 시점에 의존>![]() |
<분산이 시점에 의존>![]() |
<공분산 시점에 의존>![]() |
[정상화 방법] ① 이상치 제거 ② 평균 일정 X → 차분을 통해 정상화 (현시점 - 전시점 값) ③ 분산 일정 X → 변환을 통해 정상화 |
(1) 회귀분석
- 정규성, 등분산성, 독립성 가정
- 예) 다항추세모형, 선형다항식추세모형, 상수평균모형, 계절추세모형, 선형/계절추세모형
(2) 분해법
- 서로 독립이라는 가정을 기반으로 분해
- 가법모형(+), 승법모형(x)
체계적 성분 |
순환성분 | ![]() |
추세성분 | ![]() |
|
계절성분 | ![]() |
|
불규칙성분 | ![]() |
(3) 이동평균법
- 동일 가중치 부여, 계절성분과 불규칙성분 제거
(4) 지수평활법
- 최근 관측치에 높은 가중치 부여
- 예) 단순지수평활법, 이중지수평활법, 계절지수평활법, 선형/계절추세모형
(5) AR ~ (9) SARIMA
자기회귀모형 AR(p) |
- 이전 값이 이후 값에 영향을 미치는 상황 - 과거 관측치로 설명 |
이동평균모형 MA(q) |
- 평균이 시간에 따라 변화하는 경향 - 과거의 오차항으로 설명 |
자기회귀 이동평균모형 ARMA(p,q) |
- AR모형 + MA모형 결합한 모형 - 과거 관측치와 오차항으로 설명 |
자기회귀 누적 이동평균모형 ARIMA(p,d,q) |
- d차로 차분 변환 과정을 포함한 ARMA모형 |
계절형 자기회귀 이동평균모형 (SARIMA) |
- 계절과 비계절 성분에 대한 모형을 순차적으로 적합 |
(10) 시계열모형 식별방법
① ACF(자기상관함수): 시차에 따른 자기상관을 의미, 시차↑ → ACF=0
- 정상시계열: 빠르게 0으로 수렴
- 비정상시계열: 천천히 감소
② PACF(편자기상관함수): 시차에 따른 편자기상관을 의미
- 시차가 다른 두 데이터 간의 상호 연관성
4) 베이지안 기법
(1) 조건부확률
- 특정 사건이 발생했다는 가정하에 다른 사건 발생 확률
(2) 베이즈 정리
- 사전/사후 확률 사이의 관계
- 신규 데이터를 기반으로 베이지안 확률을 갱신하는 방법
* 베이지안 확률: 특정 사건이 포함된다는 주장에 대한 신뢰도 의미
- P(H): 사전확률
- P(H|E): 사후확률, 사건E 발생 후 갱신된 H의 확률
(3) 나이브 베이즈
- 모든 독립변수가 서로 동등하고 독립적으로 기여한다고 가정
- 관측치가 종속변수 각 범주에 속할 확률을 구하고, 가장 큰 범주에 할당
- 쉽고, 빠름, 실시간/텍스트분류에 사용
- 신규데이터는 분류 X → Laplace smoothing 기법으로 보정
'빅데이터 분석기사 > 필기 요약' 카테고리의 다른 글
[빅데이터분석기사/필기요약] Part4-1. 분석모형 평가 및 개선 (0) | 2023.04.05 |
---|---|
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_고급(2) (0) | 2023.04.04 |
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(2) (0) | 2023.04.02 |
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(1) (0) | 2023.04.01 |
[빅데이터분석기사/필기요약] Part3-1. 분석모형 설계 (0) | 2023.03.29 |