데이터분석 준전문가(ADsP)

[ADsP] 3-2. 통계분석(2)

✨️데이터분석가✨️ 2023. 5. 24. 08:00
728x90
728x90

[데이터분석 준전문가, ADsP] 자격증 시험 요약자료로

3과목. 데이터 분석의 "제2장. 통계분석" 입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!


[목차]
3과목. 데이터 분석
 제2장. 통계분석
          3. 다변량 분석
          4. 시계열 예측

 

3. 다변량 분석

 

1) 회귀분석

(1) 회귀분석

- 독립변수들이 종속변수에 미치는 영향을 추정

선형성 등분산성 독립성 비상관성 정규성
X,Y 관계가 선형 잔차와 독립변수는 무관함 오차와 독립변수는 무관함 오차끼리 무관함 오차의 분포가
정규분포

*오차: 모집단 실제값 vs. 회귀선과의 차이 (정확치와 관측치의 차이)

  잔차: 표본 관측값 vs. 회귀선과의 차이

 

구분 단순선형회귀분석 다중선형회귀분석
정의 독립변수 한 개 독립변수 두 개 이상
유의성 t통계량의 p-value값 F통계량의 p-value값
설명력 0 < 결정계수(R²) < 1
R²↑ → 설명력↑
결정계수(R²), 수정된 결정계수
결정계수
 
MSR = SSR / k
MSE = SSE / (n-k-1)
F = MSR / MSE
기타 - 다중공선성: 독립변수 사이에 선형관계
                       존재 → 회귀계수 추정 곤란
① 분산팽창요인(VIF)
  : 4↑ 다중공선성 존재, 10↑심각
② 상태지수
  : 10↑문제 있음, 30↑심각
  → 문제 변수 제거 or 주성분회귀 적용
로지스틱회귀 다항회귀 곡선회귀 비선형회귀
종속변수가 범주형 독립&종속변수
관계가

1차 함수 이상
독립변수가 1개,
종속변수와 곡선
선형관계X

 

(2) 최적회귀방정식

- 가능한 적은 수의 설명변수, 가장 적합한 회귀모형 선택

- AIC최소가 되는 모델 선택

단계적 변수 선택
전진선택법 후진제거법 단계선택법
중요 변수부터 추가 영향도 적은 변수 하나씩 제거 단계별로 추가/제거

 

 

2) 다차원척도법(MDS)

- 객체 간 근접성을 시각화하는 통계기법

- 유클리드 거리행렬을 활용

- 적합 정도를 스트레스 값, 부적합도 기준은 STRESS or S-STRESS 사용

- 부적합도를 최소로 하는 반복알고리즘을 이용, 일정 수준 이하일 때 최종 적합 모형으로 제시

계량적 MDS 비계량적 MDS
구간척도비율척도인 경우 활용 순서척도인 경우 활용

 

 

3) 주성분분석

- 서로 상관성이 높은 변수들의 선형결합으로 생성된 상관성 높은 변수들을 요약/축소하는 기법

- 소수의 주성분으로 차원을 축소, 데이터 이해/관리 용이 (다중공선성 존재 시 활용)

주성분분석 요인분석
- 데이터 축소에 활용
- 생성된 변수는 4개 내외
- 생성된 변수는 제1주성분 등으로 표현
- 생성된 변수들은 순서대로 중요
- 목표변수 고려하여 선형 결합으로
  이루어진 주성분을 찾아냄
- 데이터 축소에 활용
- 변수 개수를 지정/제한 없이 생성할 수 있음
- 생성된 변수는 요인의 이름을 명명함
- 생성된 변수들은 대등한 관계
- 목표변수 고려하지 않고
  비슷한 변수들을 생성함

 

 


4. 시계열 예측

 

1) 시계열 자료

(1) 정상성/비정상성 시계열 자료

정상성 시계열 자료 비정상성 시계열 자료
다루기 쉬운 시계열로 변환한 자료
- 어떤 시점에서 평균/분산/자기공분산이 동일
- 평균값으로 회귀하려는 경향
- 평균값 변동은 대체로 일정한 폭
다루기 어려운 자료 (대부분 해당)

- 평균 일정차분(difference)을 통해 정상화

  *차분: 현시점 자료에서 전 시점 자료를 빼는 것

- 분산 일정 → 변환(Transformation)을 통해 정상화 

- 공분산도 시차에만 의존, 시점에는 의존하지 않음

 

 

2) 시계열 자료 분석방법

(1) 일변량/다중 시계열 분석

일변량 시계열분석 다중 시계열분석
Box-Jenkins, 지수평활법, 시계열 분해법 등 회귀분석(계량경제 모형), 다변량 ARIMA 등

 

(2) 이동평균법

- 일정기간별 이동평균을 계산, 다음 기간을 예측하는 방법

- 특정 기간 안에 속한 시계열은 동일한 가중치 부여

- 불규칙변동이 심하지 않은 경우에는 짧은 기간의 평균 사용 (불규칙변동 심한 경우는 긴 기간)

- 적절한 기간을 사용하는 것이 중요 (즉, 적절한 n의 개수)

 

(3) 지수평활법

- 모든 시계열 자료를 사용하여 평균을 계산, 최근 시계열에 더 많은 가중치 부여

- 단기간에 발생하는 불규칙변동을 평활하는 방법

- 불규칙변동이 심하지 않은 경우에는 큰 값의 지수평활계수 적용 (불규칙변동 심한 경우는 작은 값)

 

 

3) 시계열모형

모형 내용
자기회귀
[AR(p) 모형]
- p시점 전의 자료가 현재에 영향을 주는 모형
- ACF는 빠르게 감소, PACF는 절단점 가짐
  *ACF: 자기상관함수 / PACF: 부분자기함수
이동평균
[MA(q) 모형]
- 언제나 정상성 만족
- ACF는 절단점을 갖고, PACF는 빠르게 감소
자기회귀누적이동평균
[ARIMA(p,d,q) 모형]
- 비정상시계열 모형임
- 정상성 시계열에 사용 (비정상 시계열은 정상성으로 바꾼 후 사용)
- ARIMA 모형을 차분/변환하여 AR, MA, ARMA 모형으로 정상화 가능
- d=0 → 정상성 만족
- p=0 → d번 차분하면 MA(q),  q=0 → d번 차분하면 AR(p)를 따름
분해 시계열 - 시계열에 영향을 주는 일반적인 요인들을 분리해 분석하는 방법
분해 시계열

 

 

위 내용은 [ADsP 데이터분석 준전문가, (주)데이터에듀]를 참고하여 요약한 자료입니다.

 

728x90
728x90