통계 분석

[통계 기초] #1. 통계학, 기술/추론통계

✨️데이터분석가✨️ 2023. 4. 22. 08:00
728x90
728x90
[목차]
1. 통계학
    1) 통계학의 정의
    2) 통계학의 기원

    3) 통계학 vs. 머신러닝
2. 기술통계
    1) 중심경향성

    2) 산포도
    3) 분포
    4) 시각화
3. 추론통계

 

1. 통계학 (Statistics)

 

1) 통계학의 정의

: 통계학은 자료를 가공 → 의미있는 정보가 도출 → 의사결정에 도움이 되도록 하는 것

: 데이터수집 → 데이터가공 → 탐색적 데이터 분석(EDA) → 모델링 → 결과해석 및 적용

 

 

2) 통계학의 기원

: 기원전 약 3000년경 최초로 이집트 피라미드 건설에 통계 조사 조직에 대한 기록이 있음

[프랜시스 골턴] 사분위수/백분율/표준편차 개념에 이름을 붙임, 중앙값을 대푯값으로 사용, 평균으로의 회귀 발견

[칼 피어슨] 상관관계 계수 개념 창시

[존 튜키] 탐색적 데이터 분석(EDA) 창시

 

 

2) 통계학 vs. 머신러닝

통계학 머신러닝
자료생성과정 파악 알고리즘 모델 생성
과거-현재 데이터를 활용한 현상 해석 과거-현재 데이터를 활용한 미래 예측
가설 검정 예측 정확도 향상

: 모델이 복잡하면 과적합 문제가 발생

: 모델의 신뢰도 중시 및 단순성 추구

 

 


2. 기술통계 (Descriptive Statistics)

 

: 자료분석

: 데이터 특성을 사실에 근거하여 요약해서 설명하는 통계적 방법

 

1) 중심경향성

: 데이터의 중심이 어디에 있는지를 나타내는 지표

: 평균(자료들의 합을 표본 크기로 나눈 값)

: 중앙값(자료들을 순서대로 정렬했을 때 가운데에 있는 값)

: 최빈값(가장 빈도가 많은 값)

 

2) 산포도

: 데이터가 퍼져있는 정도를 나타내는 지표

: 최댓값(가장 큰 값)

: 최솟값(가장 작은 값)

: 범위(가장 큰 값 - 가장 작은 값)

: 분산(편차 제곱의 평균)

: 표준편차(분산에 루트를 씌운 값)

: 표준오차(표본 평균 분포의 표준편차)

 

3) 분포

: 데이터의 분포의 형태와 대칭성을 나타내는 지표

: 첨도(데이터 분포의 뾰족 정도)

: 왜도(데이터 분포의 기울어진 정도, 비대칭성)

 

4) 시각화

: 인포그래픽, 산점도, 박스플롯, 히스토그램 등

 

 


3. 추론통계 (Inferential Statistics)

 

: 모집단 추정

: 일부(표본)를 통해 전체(모집단)를 추정하거나 가설 검증하는데 사용하는 통계적 방법

(예, 평균 키가 170cm라고 했을 때, 168~172cm 내 존재할 확률은 어느 정도다라고 추정하는 것)

: 모수 값이 특정 구간 내 존재할 확률이 얼마인지 추정하는 것

 

1) 계산 과정

: 점추정(추정된 표본으로부터 모수에 가까운 하나의 값)

: 구간추정(모수를 포함할 것으로 예상되는 구간/범위의 값)

기술통계와 추론통계
기술통계와 추론통계

 

 

728x90
728x90