[데이터분석 준전문가, ADsP] 자격증 시험 요약자료로
3과목. 데이터 분석의 "제2장. 통계분석" 입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
[목차]
3과목. 데이터 분석
제2장. 통계분석
3. 다변량 분석
4. 시계열 예측
3. 다변량 분석
1) 회귀분석
(1) 회귀분석
- 독립변수들이 종속변수에 미치는 영향을 추정
선형성 | 등분산성 | 독립성 | 비상관성 | 정규성 |
X,Y 관계가 선형 | 잔차와 독립변수는 무관함 | 오차와 독립변수는 무관함 | 오차끼리 무관함 | 오차의 분포가 정규분포 |
*오차: 모집단 실제값 vs. 회귀선과의 차이 (정확치와 관측치의 차이)
잔차: 표본 관측값 vs. 회귀선과의 차이
구분 | 단순선형회귀분석 | 다중선형회귀분석 |
정의 | 독립변수 한 개 | 독립변수 두 개 이상 |
유의성 | t통계량의 p-value값 | F통계량의 p-value값 |
설명력 | 0 < 결정계수(R²) < 1 R²↑ → 설명력↑ |
결정계수(R²), 수정된 결정계수 |
결정계수 | MSR = SSR / k MSE = SSE / (n-k-1) F = MSR / MSE |
|
기타 | - | 다중공선성: 독립변수 사이에 선형관계 존재 → 회귀계수 추정 곤란 ① 분산팽창요인(VIF) : 4↑ 다중공선성 존재, 10↑심각 ② 상태지수 : 10↑문제 있음, 30↑심각 → 문제 변수 제거 or 주성분회귀 적용 |
로지스틱회귀 | 다항회귀 | 곡선회귀 | 비선형회귀 |
종속변수가 범주형 | 독립&종속변수 관계가 1차 함수 이상 |
독립변수가 1개, 종속변수와 곡선 |
선형관계X |
(2) 최적회귀방정식
- 가능한 적은 수의 설명변수, 가장 적합한 회귀모형 선택
- AIC가 최소가 되는 모델 선택
단계적 변수 선택 | ||
전진선택법 | 후진제거법 | 단계선택법 |
중요 변수부터 추가 | 영향도 적은 변수 하나씩 제거 | 단계별로 추가/제거 |
2) 다차원척도법(MDS)
- 객체 간 근접성을 시각화하는 통계기법
- 유클리드 거리행렬을 활용
- 적합 정도를 스트레스 값, 부적합도 기준은 STRESS or S-STRESS 사용
- 부적합도를 최소로 하는 반복알고리즘을 이용, 일정 수준 이하일 때 최종 적합 모형으로 제시
계량적 MDS | 비계량적 MDS |
구간척도나 비율척도인 경우 활용 | 순서척도인 경우 활용 |
3) 주성분분석
- 서로 상관성이 높은 변수들의 선형결합으로 생성된 상관성 높은 변수들을 요약/축소하는 기법
- 소수의 주성분으로 차원을 축소, 데이터 이해/관리 용이 (다중공선성 존재 시 활용)
주성분분석 | 요인분석 |
- 데이터 축소에 활용 - 생성된 변수는 4개 내외임 - 생성된 변수는 제1주성분 등으로 표현 - 생성된 변수들은 순서대로 중요함 - 목표변수 고려하여 선형 결합으로 이루어진 주성분을 찾아냄 |
- 데이터 축소에 활용 - 변수 개수를 지정/제한 없이 생성할 수 있음 - 생성된 변수는 요인의 이름을 명명함 - 생성된 변수들은 대등한 관계임 - 목표변수 고려하지 않고 비슷한 변수들을 생성함 |
4. 시계열 예측
1) 시계열 자료
(1) 정상성/비정상성 시계열 자료
정상성 시계열 자료 | 비정상성 시계열 자료 |
다루기 쉬운 시계열로 변환한 자료 - 어떤 시점에서 평균/분산/자기공분산이 동일 - 평균값으로 회귀하려는 경향 - 평균값 변동은 대체로 일정한 폭 |
다루기 어려운 자료 (대부분 해당) |
- 평균 일정 → 차분(difference)을 통해 정상화
*차분: 현시점 자료에서 전 시점 자료를 빼는 것
- 분산 일정 → 변환(Transformation)을 통해 정상화
- 공분산도 시차에만 의존, 시점에는 의존하지 않음
2) 시계열 자료 분석방법
(1) 일변량/다중 시계열 분석
일변량 시계열분석 | 다중 시계열분석 |
Box-Jenkins, 지수평활법, 시계열 분해법 등 | 회귀분석(계량경제 모형), 다변량 ARIMA 등 |
(2) 이동평균법
- 일정기간별 이동평균을 계산, 다음 기간을 예측하는 방법
- 특정 기간 안에 속한 시계열은 동일한 가중치 부여
- 불규칙변동이 심하지 않은 경우에는 짧은 기간의 평균 사용 (불규칙변동 심한 경우는 긴 기간)
- 적절한 기간을 사용하는 것이 중요 (즉, 적절한 n의 개수)
(3) 지수평활법
- 모든 시계열 자료를 사용하여 평균을 계산, 최근 시계열에 더 많은 가중치 부여
- 단기간에 발생하는 불규칙변동을 평활하는 방법
- 불규칙변동이 심하지 않은 경우에는 큰 값의 지수평활계수 적용 (불규칙변동 심한 경우는 작은 값)
3) 시계열모형
모형 | 내용 |
자기회귀 [AR(p) 모형] |
- p시점 전의 자료가 현재에 영향을 주는 모형 - ACF는 빠르게 감소, PACF는 절단점 가짐 *ACF: 자기상관함수 / PACF: 부분자기함수 |
이동평균 [MA(q) 모형] |
- 언제나 정상성 만족 - ACF는 절단점을 갖고, PACF는 빠르게 감소함 |
자기회귀누적이동평균 [ARIMA(p,d,q) 모형] |
- 비정상시계열 모형임 - 정상성 시계열에 사용 (비정상 시계열은 정상성으로 바꾼 후 사용) - ARIMA 모형을 차분/변환하여 AR, MA, ARMA 모형으로 정상화 가능 - d=0 → 정상성 만족 - p=0 → d번 차분하면 MA(q), q=0 → d번 차분하면 AR(p)를 따름 |
분해 시계열 | - 시계열에 영향을 주는 일반적인 요인들을 분리해 분석하는 방법 |
위 내용은 [ADsP 데이터분석 준전문가, (주)데이터에듀]를 참고하여 요약한 자료입니다.
'데이터분석 준전문가(ADsP)' 카테고리의 다른 글
[ADsP] 3-3. 정형 데이터 마이닝(2) (0) | 2023.06.24 |
---|---|
[ADsP] 3-3. 정형 데이터 마이닝(1) (2) | 2023.06.07 |
[ADsP] 3-2. 통계분석(1) (0) | 2023.05.23 |
[ADsP] 3-1. R 기초와 데이터 마트 (2) | 2023.05.22 |
[ADsP] 2-2. 분석 마스터 플랜 (0) | 2023.05.21 |