[빅데이터분석기사]의 필기시험 요약자료로
Part2. 빅데이터 탐색의 "Chapter3. 통계기법 이해"입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)
[목차]
Part2. 빅데이터 탐색
Part2-3. 통계기법 이해
1. 기술통계
1) 데이터요약
2) 표본추출
3) 확률분포
4) 표본분포
2. 추론통계
1) 점추정
2) 구간추정
3) 가설검정
1. 기술통계
1) 데이터 요약
- 중심경향, 산포도, 분포 통계량
2) 표본추출
(1) 자료 속성 및 척도 종류
구분 | 척도 | 내용 | 연산 | 예시 |
질적 자료 |
명목 척도 | 집단 분류 | 등호연산 | 성별 |
순서 척도 | 서열/대소관계 | 비교연산 | 평점 | |
양적 자료 |
구간/등간 척도 | 간격이 의미 | 등호연산, 비교연산 | 온도 |
비율 척도 | 비율이 의미 | 사칙연산 (0 존재) | 질량 |
(2) 표본추출 기법
단순무작위 추출 | 계통 추출 | 층화 추출 | 군집 추출 |
![]() |
![]() |
![]() |
![]() |
- 규칙X, 무작위 추출 - 간편한 방법 |
- 동일 간격으로 추출 | - 계층으로 나누고 계층별 무작위 추출 - 계층 내 동질적 계층 간 이질적 |
- 군집 전체 or 일부 - 계층 내 이질적 계층 간 동질적 |
3) 확률분포
(1) 확률분포함수
① 확률질량함수: 이산확률변수의 확률분포
② 확률밀도함수: 밀도를 함수f(x)로 표시, 면적이 그 확률값
(2) 이산확률분포: 하나씩 셀 수 있는 값
이항분포 | 포아송분포 |
![]() |
![]() |
- 베르누이(성공or실패) n번 반복 시, k번 성공할 확률 - E(X) = np, V(X) = np(1-p) - n↑ → 정규분포 |
- 어떤 사건의 발생 횟수에 대한 확률 - E(X) = λ, V(X) = λ - n↑ → 정규분포 |
(3) 연속확률분포: 연속적인 값
정규분포 | 표준정규분포 | t-분포 | 카이제곱분포 | F-분포 |
![]() |
![]() |
![]() |
![]() |
![]() |
- 좌우 대칭 - E(X)=μ V(X)=σ² - σ²↓ → 뾰죡 |
- Z-분포 - 평균=0, 분산=1인 정규분포 - Z=(X-μ)/σ |
- 두 집단의 평균비교 - 표본크기 작을때 표준편차 모를때 - E(X)=0 V(X)=k/(k-2) |
- 오른쪽 긴 꼬리 (일반적) - 범주형 자료 - E(X)=k V(X)=2k |
- 두 집단 간 분산의 동일성 검정에 활용 - F=s₁²/s₂² |
4) 표본분포
① 모집단: 집단 전체
② 모수: 모집단에 대한 정보
* 추론/추정: 통계량 → 모수
③ 표본: 모집단의 일부 원소
* 표본추출: 모집단 → 표본
④ 통계량: 표본에서 얻은 값(평균, 표준오차 등)
⑤ 추정량: 모수 추정을 위해 구해진 통계량
※ 표본분포의 법칙
① 큰 수의 법칙: n↑ → 분산 = 0
② 중심극한정리: n↑ → 정규분포
2. 추론통계
1) 점추정
2) 구간추정
구분 | 설명 | 조건 | 통계량 |
점추정 | 모수를 하나의 값으로 추정 | ① 불편성 ② 효율성 ③ 일치성 ④ 충족성 |
① 표본평균 ② 표본분산 ③ 중위수 ④ 최빈값 |
구간추정 | 범위로 모수를 추정 | ① 추정량 분포에 대한 전제 ② 구간안에 모수가 있을 가능성 |
① 신뢰수준 ② 신뢰구간 |
3) 가설검정
(1) 가설의 종류
① 귀무가설(H0)
- 현재까지 주장되어 온 것, 차이가 없음을 나타내는 가설
② 대립가설(H1) = 연구가설
- 입증하고자 하는 가설
(2) 가설검정
- 검정통계량: 모수를 추론하기 위해 사용되는 표본 통계량 (H0가 참이라는 전제)
- p-value: 귀무가설이 참이라는 가정에 따라 표본 데이터를 얻을 확률값
* p-value < 유의수준 → 귀무가설 기각 → 통계적으로 유의
- 기각역: 대립가설이 참, 받아들이는 확률
(3) 가설검정 절차
- 귀무가설/대립가설 설정 → 검정의 유의수준 결정 → 검정통계량 계산 → 기각역 구한 뒤 귀무가설 기각
(4) 가설검정 방법
① 양측검정 - H0: θ = θo, H1: θ ≠ θo
② 단측검정 - H0: θ ≥ θo, H1: θ < θo
(5) 가설검정의 오류
구분 | 가설 검정 결과 | ||
귀무가설 사실 | 귀무가설 거짓 | ||
실제 결과 | 귀무가설 사실 | 신뢰수준, 1-α | 제 1종 오류, α |
귀무가설 거짓 | 제 2종 오류, β | 검정력, 1-β |
'빅데이터 분석기사 > 필기 요약' 카테고리의 다른 글
[빅데이터분석기사/필기요약] Part3-2. 분석기법 적용_기본(1) (0) | 2023.04.01 |
---|---|
[빅데이터분석기사/필기요약] Part3-1. 분석모형 설계 (0) | 2023.03.29 |
[빅데이터분석기사/필기요약] Part2-2. 데이터 탐색 (0) | 2023.03.25 |
[빅데이터분석기사/필기요약] Part2-1. 데이터 전처리 (0) | 2023.03.23 |
[빅데이터분석기사/필기요약] Part1-3. 데이터 수집 및 저장 계획 (3) | 2023.03.21 |