통계 분석

[통계 기초] #3. 모집단, 표본추출

✨️데이터분석가✨️ 2023. 4. 28. 08:00
728x90
728x90
[목차]
1. 모집단과 표본
2. 전수조사와 표본조사
3. 편향
4. 표본추출 방법

 

1. 모집단과 표본

 

1) 모집단(population)

: 분석 대상 전체 집합

 

2) 표본(sample)

: 모집단의 일부를 추출

모집단과 표본
모집단과 표본


2. 전수조사와 표본조사

 

1) 전수조사

: 모집단 전체를 조사

  예) 선거 투표

 

2) 표본조사

: 표본으로 모집단의 정보를 추정하고 검정

  예) 여론 조사

: 모집단의 특성을 반영할 수 있는 표본으로 추출하는 것이 중요

: 표본조사를 해야하는 경우

  ①모집단이 많은 경우  ②모집단 파악이 불가능한 경우  ③파괴적인 조사인 경우

: 변수 하나당 최소 30개의 관측치가 필요함

: 모집단 추정 방법으로 포획-재포획 or 관찰-재관찰법이 있음

 


3. 편향

 

1) 표본조사 편향 종류

① 표본추출편향: 편향된 표본만 추출되는 경우

② 가구편향: 규모는 크지만 많지 않은 집단이 적게 추출되는 경우

③ 무응답편향: 미응답자와 응답자 간에 차이가 있는 경우

응답편향: 응답자의 심리적 이슈에 영향을 받는 경우

* 브래들리 효과: 개인적인 정보를 밝히기 어려워 거짓된 응답을 하는 현상

 

2) 인지적 편향 종류

: 분석가 성향에 따라 비논리적인 추론(왜곡된 지각)을 내리는 경우

① 확증 편향: 유리한 방향의 정보로 수집하고 임의로 판단하는 편향

② 기준점 편향: 처음 접한 정보에 지나치게 매몰되는 편향

③ 선택 지원 편향: 의사결정한 방향으로 긍정적인 생각을 많이하고 반대되는 증거는 무시하는 편향

④ 분모 편향: 전체가 아닌 분자에만 집중하여 현황을 왜곡하는 편향

⑤ 생존자 편향: 소수 성공 사례를 일반화로 인식함으로써 나타나는 편향

 

3) 편향과 분산

: 모델 복잡도↑ → 편향↓, 분산↑ (편향과 분산은 트레이드오프 관계)

편향과 분산
편향과 분산

 


4. (편향 최소화) 표본추출 방법

 

1) 표본추출 단계

: 모집단 확정 → 표본 목록 선정 → *표본추출 방법 결정 → 표본크기 결정 → 표본추출

  * 표본추출 방법: 확률표본추출 vs.비확률표본추출 / 복원추출 vs.비복원추출

 

2) 확률표본추출 방법 (편향을 제거하여 표본의 신뢰도 높음)

구분 내용 특징
단순 임의 추출방법 - 표본 선정 확률 동일
- 모집단을 특성을 모르는 경우 유용
- 쉽고 빠름, 일반적으로 사용
계층적 표본추출방법 - 일정 간격으로 표본 추출 - 주기성 있는 표본은 부적절
층화 표본추출방법 - 집단 내, 일부 표본 무작위 추출 - 분류 가능할 때 쓰임
- 표본 편중 위험을 보완
군집 표본추출방법 - 소집단 전체/일부를 추출 - 모집단이 방대한 상황에서 유용
- 모수를 반영하지 못할 수도 있음

 

3) 복원/비복원추출법

구분 내용 특징
복원추출법 추출된 표본을 다시 넣고,
다음 표본 추출
동일 표본 중복 선택 가능
표본 추출 확률 동일
비복원추출법 추출된 표본을 다시 넣지 않고,
다음 표본 추출
표본 추출하면, 다음 표본 추출 확률에 영향을 미침

: 모집단이 크지 않거나, 표본이 20% 이상으로 많은 경우 → 복원추출법이 편향을 더 줄일 수 있음

 

728x90
728x90