데이터분석 준전문가(ADsP)

[ADsP] 3-2. 통계분석(1)

✨️데이터분석가✨️ 2023. 5. 23. 08:00
728x90
728x90

[데이터분석 준전문가, ADsP] 자격증 시험 요약자료로

3과목. 데이터 분석의 "제2장. 통계분석" 입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!


[목차]
3과목. 데이터 분석
 제2장. 통계분석
          1. 통계학 개론
          2. 기초 통계분석

 

1. 통계학 개론

 

1) 통계자료

통계자료

 

2) 표본추출 방법

- 단순랜덤 추출법: 임의의 n개 추출(선택 확률 동일)

- 계통추출법: 구간을 나누고 첫 구간에서 하나를 임의로 선택, K개씩 띄어서 n개 표본 선택 

- 집락추출법: 군집을 구분, 단순랜덤으로 군집 추출, 추출된 군집 모두 활용 or 샘플링

- 층화추출법: 유사 원소끼리 층으로 구분, 각 층에서 랜덤 추출 (층 내 동질, 층 간 이질)

 

3) 측정방법

종류 척도 정의 기타 예시
질적
척도
(범주형)
명목척도
(nominal scale)
범주 구분 - 성별
서열척도
(ordinal
 scale)
범주 + 순서 측정 - 등번호
양적
척도
(연속형)
등간척도
(interval
 scale)
범주 + 순서 + 상대적크기 비교 가감 가능
(+, -)
온도
비율척도
(ratio scale)
범주 + 순서 + 상대적 + 절대적크기 가감승계 가능
(+, -, ×, ÷)
몸무게

 

4) 통계분석

- 기술통계: 객관적인 데이터로 나타내는 통계분석

- 추측통계: 모수추정, 가설검정, 예측

 

5) 확률

(1) 확률변수

덧셈정리
(동시에 일어남)
덧셈정리
(동시에 일어나지 않음)
곱셈정리
(독립사건)
P(A∪B) = P(A) + P(B) - P(A∩B) P(A∪B) = P(A) + P(B) P(A∩B) = P(A) X P(B)
P(A|B) = P(A∩B) / P(B) - P(A|B) = P(A)

 

(2-1) 이산형 확률분포 (확률질량함수)

- 베르누이 확률분포: 결과가 2개만 나오는 경우

- 이항분포: 베르누이 시행을 n번 반복 시, k번 성공할 확률 (n↑ → 정규분포)

- 기하분포: 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률

- 다항분포: 결과가 3개 이상을 가지는 반복 시행에서 발생하는 확률분포

- 포아송분포: 시간과 공간 내 발생하는 사건의 발생횟수에 대한 확률분포

 

(2-2) 연속형 확률분포 (확률밀도함수)

- 균일분포: 모든 확률변수 X가 균일한 확률을 가지는 분포

- 정규분포: 평균μ, 표준편차σ인 확률밀도함수 (표준정규분포는 평균0, 표준편차1)

- 지수분포: 사건 발생까지 경과 시간에 대한 연속확률분포

- t-분포: 두 집단의 평균이 동일한지 알고자 할 때 활용

- X²분포:두 집단 간의 동질성 검정에 활용

- F분포: 두 집단 간 분산의 동일성 검정에 활용 (자유도 2개, 자유도↑ → 정규분포)

 

6) 추정

- 점추정: '모수가 특정한 값일 것'이라고 추정

- 구간추정: '모수가 특정한 구간에 있을 것'이라고 추정

 

7) 가설검정

- 귀무가설(H0): 기존 주장

- 대립가설(H1): 새로운 주장

- 검정통계량: 가설의 진위를 판단하는 기준

- 유의수준(α): 귀무가설을 기각하게 되는 확률의 크기

- 기각역: 검정통계량 분포에서 확률이 유의수준 α인 부분

- 제 1종 오류, 제 2종 오류

구분 가설 검정 결과
귀무가설 사실 귀무가설 거짓
실제 결과 귀무가설 사실 신뢰수준, 1-α 제 1종 오류, α
귀무가설 거짓 제 2종 오류, β 검정력, 1-β

 

8) 비모수 검정

- 모수적 방법: 모집단의 분포에 대한 가정을 하고, 분포를 유도해 검정하는 방법

- 비모수적 방법: 모집단 분포에 제약을 가하지 않고 검정을 실시하는 방법
  (특정분포를 따른다고 가정할 수 없거나, 자료 수가 많지 않거나, 서열관계인 경우 이용)

  예) 부호검정, 윌콕슨의 순위합검정, 만-위트니의 U검정, 스피어만의 순위상관계수 등

 

 


2. 기초 통계분석

 

1) 기술통계

(1) 중심위치의 측도

- 평균, 중앙값

 

(2) 산포의 측도

- 분산, 표준편차, 사분위수범위(IQR), 사분위수, 백분위수, 변동계수, 표준오차

 

(3) 분포 형태의 측도

- 왜도(비대칭정도), 첨도(뾰족한정도)

 

(4) 그래프

- 막대그래프(명목형), 히스토그램(연속형), 줄기-잎 그림, 상자그림

 

2) 인과관계

- 종속변수(y), 독립변수(x), 산점도

- 공분산 (X,Y 방향의 조합) (+ 양의 방향성) (X,Y가 독립이면 → Cov(X,Y)=0)

 

3) 상관분석

- 두 변수 간의 관계 정도, Cor(X,Y)

- 상관계수 0.7<r≤1 → 강한 양의 상관관계 / r=0 → 관계 없음

- p-value0.05 → 대립가설 채택 (상관관계 있음)

피어슨 상관분석 스피어만 상관분석
등간척도
연속형 변수, 정규성 가정
적률상관계수 r
서열척도
순서형 변수, 비모수적 방법
순위상관계수 ρ

 

 

위 내용은 [ADsP 데이터분석 준전문가, (주)데이터에듀]를 참고하여 요약한 자료입니다.

 

728x90
728x90