[데이터분석 준전문가, ADsP] 자격증 시험 요약자료로
3과목. 데이터 분석의 "제2장. 통계분석" 입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
[목차]
3과목. 데이터 분석
제2장. 통계분석
1. 통계학 개론
2. 기초 통계분석
1. 통계학 개론
1) 통계자료
2) 표본추출 방법
- 단순랜덤 추출법: 임의의 n개 추출(선택 확률 동일)
- 계통추출법: 구간을 나누고 첫 구간에서 하나를 임의로 선택, K개씩 띄어서 n개 표본 선택
- 집락추출법: 군집을 구분, 단순랜덤으로 군집 추출, 추출된 군집 모두 활용 or 샘플링
- 층화추출법: 유사 원소끼리 층으로 구분, 각 층에서 랜덤 추출 (층 내 동질, 층 간 이질)
3) 측정방법
종류 | 척도 | 정의 | 기타 | 예시 |
질적 척도 (범주형) |
명목척도 (nominal scale) |
범주 구분 | - | 성별 |
서열척도 (ordinal scale) |
범주 + 순서 측정 | - | 등번호 | |
양적 척도 (연속형) |
등간척도 (interval scale) |
범주 + 순서 + 상대적크기 비교 | 가감 가능 (+, -) |
온도 |
비율척도 (ratio scale) |
범주 + 순서 + 상대적 + 절대적크기 | 가감승계 가능 (+, -, ×, ÷) |
몸무게 |
4) 통계분석
- 기술통계: 객관적인 데이터로 나타내는 통계분석
- 추측통계: 모수추정, 가설검정, 예측
5) 확률
(1) 확률변수
덧셈정리 (동시에 일어남) |
덧셈정리 (동시에 일어나지 않음) |
곱셈정리 (독립사건) |
P(A∪B) = P(A) + P(B) - P(A∩B) | P(A∪B) = P(A) + P(B) | P(A∩B) = P(A) X P(B) |
P(A|B) = P(A∩B) / P(B) | - | P(A|B) = P(A) |
(2-1) 이산형 확률분포 (확률질량함수)
- 베르누이 확률분포: 결과가 2개만 나오는 경우
- 이항분포: 베르누이 시행을 n번 반복 시, k번 성공할 확률 (n↑ → 정규분포)
- 기하분포: 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
- 다항분포: 결과가 3개 이상을 가지는 반복 시행에서 발생하는 확률분포
- 포아송분포: 시간과 공간 내 발생하는 사건의 발생횟수에 대한 확률분포
(2-2) 연속형 확률분포 (확률밀도함수)
- 균일분포: 모든 확률변수 X가 균일한 확률을 가지는 분포
- 정규분포: 평균μ, 표준편차σ인 확률밀도함수 (표준정규분포는 평균0, 표준편차1)
- 지수분포: 사건 발생까지 경과 시간에 대한 연속확률분포
- t-분포: 두 집단의 평균이 동일한지 알고자 할 때 활용
- X²분포:두 집단 간의 동질성 검정에 활용
- F분포: 두 집단 간 분산의 동일성 검정에 활용 (자유도 2개, 자유도↑ → 정규분포)
6) 추정
- 점추정: '모수가 특정한 값일 것'이라고 추정
- 구간추정: '모수가 특정한 구간에 있을 것'이라고 추정
7) 가설검정
- 귀무가설(H0): 기존 주장
- 대립가설(H1): 새로운 주장
- 검정통계량: 가설의 진위를 판단하는 기준
- 유의수준(α): 귀무가설을 기각하게 되는 확률의 크기
- 기각역: 검정통계량 분포에서 확률이 유의수준 α인 부분
- 제 1종 오류, 제 2종 오류
구분 | 가설 검정 결과 | ||
귀무가설 사실 | 귀무가설 거짓 | ||
실제 결과 | 귀무가설 사실 | 신뢰수준, 1-α | 제 1종 오류, α |
귀무가설 거짓 | 제 2종 오류, β | 검정력, 1-β |
8) 비모수 검정
- 모수적 방법: 모집단의 분포에 대한 가정을 하고, 분포를 유도해 검정하는 방법
- 비모수적 방법: 모집단 분포에 제약을 가하지 않고 검정을 실시하는 방법
(특정분포를 따른다고 가정할 수 없거나, 자료 수가 많지 않거나, 서열관계인 경우 이용)
예) 부호검정, 윌콕슨의 순위합검정, 만-위트니의 U검정, 스피어만의 순위상관계수 등
2. 기초 통계분석
1) 기술통계
(1) 중심위치의 측도
- 평균, 중앙값
(2) 산포의 측도
- 분산, 표준편차, 사분위수범위(IQR), 사분위수, 백분위수, 변동계수, 표준오차
(3) 분포 형태의 측도
- 왜도(비대칭정도), 첨도(뾰족한정도)
(4) 그래프
- 막대그래프(명목형), 히스토그램(연속형), 줄기-잎 그림, 상자그림
2) 인과관계
- 종속변수(y), 독립변수(x), 산점도
- 공분산 (X,Y 방향의 조합) (+ → 양의 방향성) (X,Y가 독립이면 → Cov(X,Y)=0)
3) 상관분석
- 두 변수 간의 관계 정도, Cor(X,Y)
- 상관계수 0.7<r≤1 → 강한 양의 상관관계 / r=0 → 관계 없음
- p-value<0.05 → 대립가설 채택 (상관관계 있음)
피어슨 상관분석 | 스피어만 상관분석 |
등간척도 연속형 변수, 정규성 가정 적률상관계수 r |
서열척도 순서형 변수, 비모수적 방법 순위상관계수 ρ |
위 내용은 [ADsP 데이터분석 준전문가, (주)데이터에듀]를 참고하여 요약한 자료입니다.
'데이터분석 준전문가(ADsP)' 카테고리의 다른 글
[ADsP] 3-3. 정형 데이터 마이닝(1) (2) | 2023.06.07 |
---|---|
[ADsP] 3-2. 통계분석(2) (0) | 2023.05.24 |
[ADsP] 3-1. R 기초와 데이터 마트 (2) | 2023.05.22 |
[ADsP] 2-2. 분석 마스터 플랜 (0) | 2023.05.21 |
[ADsP] 2-1. 데이터 분석 기획의 이해 (0) | 2023.05.17 |