통계 분석

[통계 기초] #4. 기술 통계적 측정 방법(평균, 분산, 표준편차, 사분위수, 변동계수, 왜도, 첨도)

✨️데이터분석가✨️ 2023. 4. 29. 20:30
728x90
728x90
[목차]
1. 중심경향성(평균, 중앙값, 최빈값)
2. 분산, 표준편차
3. 범위, 사분위수, 변동계수
4. 왜도, 첨도

 

1. 중심경향성

 

1) 평균값(mean)

① 산술평균(arithmetic mean)

: 기본적인 방법

: 전체 변숫값을 모두 더한 후 값들의 개수로 나눈 값

예) 3,3,5,5의 평균 → (3+3+5+5) / 4 = 4

 

② 가중평균(weighted mean)

: 개별 값에 가중치를 곱한 평균 (소비자 물가지수 등)

예) 3번 2개, 5번 2개의 평균 → ((3X2) + (5X2)) / 4 = 4

 

③ 기하평균(geometric mean)

: 시간에 따라 비율적으로 변화하는 값의 평균

: 매 해의 증가율을 곱한 수의 제곱근 값을 구하는 식

예) 물가상승률, 인구변동률, 증권수익률 등

 

④ 조화평균(harmonic mean)

: 전체 거리를 소요된 시간으로 나눈 값

예) 갈때는 40km/h, 올때는 60km/h → (2 / (1/40 + 1/60)) = 약 48km/h

 

 

2) 중앙값(median)

: 중앙에 위치한 값

: 홀수 개면 정가운데 있는 값, 짝수 개면 중앙의 두 값의 산술평균한 값

: 이상치에 덜 민감함

예) 소득 통계 등

 

 

3) 최빈값(mode)

: 빈도가 높은 값

: 명목척도, 서열척도 데이터도 측정 가능

: 이상치에 덜 민감함

예) 신발 사이즈 비중 등

 


2. 분산과 표준편차

 

1) 분산(variance)

: 편차 제곱의 평균값

 

2) 표준편차(standard deviation)

: 분산에 제곱근한 값

: 실제 편차의 규모와 유사하게 조정

: ±3σ를 벗어나면 이상치로 판단

 

구분 모집단 표본
분산, 표준편차 σ², σ S², S
개수 N n-1 (자유도*)

* 자유도(degree of freedom): 모집단보다 표본의 분산이 작게 계산되는 경향이 있어 표본의 통계치를 알맞게 조절하기 위해 -1을 해줌

 


3. 범위, 사분위수, 변동계수

 

1) 범위(range)

: 최댓값 - 최솟값

 

2) 사분위수(quartile)

: 순서에 따른 위치 값

: 정규분포를 따르지 않거나, 산포도가 큰 경우 사용

 

사분위수, IQR, 범위
사분위수, IQR, 범위

 

3) 변동계수(coefficient of variation, CV)

: 표준편차를 산술평균으로 나눈 값

: 서로 다른 자료의 산포도 비교 가능 (예, 몸무게와 키)

: 경우에 따라 100을 곱해서 %로 나타내기도 함

: 평균이 0에 가까운 경우, 변동계수가 무한히 커질 수 있음

 


4. 왜도, 첨도

 

1) 왜도(skewness)

: 좌우 비대칭성 척도

: 좌우대칭이면, 왜도 값은 작아짐

: 피어슨의 비대칭 계수 등으로 측정

: 왜도 = 0↓ or 3↑ → 정규성을 가지지 않는다고 판단

왜도
왜도

 

2) 첨도(kurtosis)

: 뾰족하거나 완만한 정도의 척도

첨도
첨도

 

728x90
728x90