[목차]
1. 중심경향성(평균, 중앙값, 최빈값)
2. 분산, 표준편차
3. 범위, 사분위수, 변동계수
4. 왜도, 첨도
1. 중심경향성
1) 평균값(mean)
① 산술평균(arithmetic mean)
: 기본적인 방법
: 전체 변숫값을 모두 더한 후 값들의 개수로 나눈 값
예) 3,3,5,5의 평균 → (3+3+5+5) / 4 = 4
② 가중평균(weighted mean)
: 개별 값에 가중치를 곱한 평균 (소비자 물가지수 등)
예) 3번 2개, 5번 2개의 평균 → ((3X2) + (5X2)) / 4 = 4
③ 기하평균(geometric mean)
: 시간에 따라 비율적으로 변화하는 값의 평균
: 매 해의 증가율을 곱한 수의 제곱근 값을 구하는 식
예) 물가상승률, 인구변동률, 증권수익률 등
④ 조화평균(harmonic mean)
: 전체 거리를 소요된 시간으로 나눈 값
예) 갈때는 40km/h, 올때는 60km/h → (2 / (1/40 + 1/60)) = 약 48km/h
2) 중앙값(median)
: 중앙에 위치한 값
: 홀수 개면 정가운데 있는 값, 짝수 개면 중앙의 두 값의 산술평균한 값
: 이상치에 덜 민감함
예) 소득 통계 등
3) 최빈값(mode)
: 빈도가 높은 값
: 명목척도, 서열척도 데이터도 측정 가능
: 이상치에 덜 민감함
예) 신발 사이즈 비중 등
2. 분산과 표준편차
1) 분산(variance)
: 편차 제곱의 평균값
2) 표준편차(standard deviation)
: 분산에 제곱근한 값
: 실제 편차의 규모와 유사하게 조정
: ±3σ를 벗어나면 이상치로 판단
구분 | 모집단 | 표본 |
분산, 표준편차 | σ², σ | S², S |
개수 | N | n-1 (자유도*) |
* 자유도(degree of freedom): 모집단보다 표본의 분산이 작게 계산되는 경향이 있어 표본의 통계치를 알맞게 조절하기 위해 -1을 해줌
3. 범위, 사분위수, 변동계수
1) 범위(range)
: 최댓값 - 최솟값
2) 사분위수(quartile)
: 순서에 따른 위치 값
: 정규분포를 따르지 않거나, 산포도가 큰 경우 사용

3) 변동계수(coefficient of variation, CV)
: 표준편차를 산술평균으로 나눈 값
: 서로 다른 자료의 산포도 비교 가능 (예, 몸무게와 키)
: 경우에 따라 100을 곱해서 %로 나타내기도 함
: 평균이 0에 가까운 경우, 변동계수가 무한히 커질 수 있음
4. 왜도, 첨도
1) 왜도(skewness)
: 좌우 비대칭성 척도
: 좌우대칭이면, 왜도 값은 작아짐
: 피어슨의 비대칭 계수 등으로 측정
: 왜도 = 0↓ or 3↑ → 정규성을 가지지 않는다고 판단

2) 첨도(kurtosis)
: 뾰족하거나 완만한 정도의 척도

'통계 분석' 카테고리의 다른 글
[통계 기초] #6. 가설검정 (0) | 2023.05.01 |
---|---|
[통계 기초] #5. 확률, 확률분포 (2) | 2023.04.30 |
[통계 기초] #3. 모집단, 표본추출 (0) | 2023.04.28 |
[통계 기초] #2. 변수/척도 (0) | 2023.04.23 |
[통계 기초] #1. 통계학, 기술/추론통계 (0) | 2023.04.22 |