[목차]
1. 통계학
1) 통계학의 정의
2) 통계학의 기원
3) 통계학 vs. 머신러닝
2. 기술통계
1) 중심경향성
2) 산포도
3) 분포
4) 시각화
3. 추론통계
1. 통계학 (Statistics)
1) 통계학의 정의
: 통계학은 자료를 가공 → 의미있는 정보가 도출 → 의사결정에 도움이 되도록 하는 것
: 데이터수집 → 데이터가공 → 탐색적 데이터 분석(EDA) → 모델링 → 결과해석 및 적용
2) 통계학의 기원
: 기원전 약 3000년경 최초로 이집트 피라미드 건설에 통계 조사 조직에 대한 기록이 있음
[프랜시스 골턴] 사분위수/백분율/표준편차 개념에 이름을 붙임, 중앙값을 대푯값으로 사용, 평균으로의 회귀 발견
[칼 피어슨] 상관관계 계수 개념 창시
[존 튜키] 탐색적 데이터 분석(EDA) 창시
2) 통계학 vs. 머신러닝
통계학 | 머신러닝 |
자료생성과정 파악 | 알고리즘 모델 생성 |
과거-현재 데이터를 활용한 현상 해석 | 과거-현재 데이터를 활용한 미래 예측 |
가설 검정 | 예측 정확도 향상 |
: 모델이 복잡하면 과적합 문제가 발생
: 모델의 신뢰도 중시 및 단순성 추구
2. 기술통계 (Descriptive Statistics)
: 자료분석
: 데이터 특성을 사실에 근거하여 요약해서 설명하는 통계적 방법
1) 중심경향성
: 데이터의 중심이 어디에 있는지를 나타내는 지표
: 평균(자료들의 합을 표본 크기로 나눈 값)
: 중앙값(자료들을 순서대로 정렬했을 때 가운데에 있는 값)
: 최빈값(가장 빈도가 많은 값)
2) 산포도
: 데이터가 퍼져있는 정도를 나타내는 지표
: 최댓값(가장 큰 값)
: 최솟값(가장 작은 값)
: 범위(가장 큰 값 - 가장 작은 값)
: 분산(편차 제곱의 평균)
: 표준편차(분산에 루트를 씌운 값)
: 표준오차(표본 평균 분포의 표준편차)
3) 분포
: 데이터의 분포의 형태와 대칭성을 나타내는 지표
: 첨도(데이터 분포의 뾰족한 정도)
: 왜도(데이터 분포의 기울어진 정도, 비대칭성)
4) 시각화
: 인포그래픽, 산점도, 박스플롯, 히스토그램 등
3. 추론통계 (Inferential Statistics)
: 모집단 추정
: 일부(표본)를 통해 전체(모집단)를 추정하거나 가설 검증하는데 사용하는 통계적 방법
(예, 평균 키가 170cm라고 했을 때, 168~172cm 내 존재할 확률은 어느 정도다라고 추정하는 것)
: 모수 값이 특정 구간 내 존재할 확률이 얼마인지 추정하는 것
1) 계산 과정
: 점추정(추정된 표본으로부터 모수에 가까운 하나의 값)
: 구간추정(모수를 포함할 것으로 예상되는 구간/범위의 값)
'통계 분석' 카테고리의 다른 글
[통계 기초] #6. 가설검정 (0) | 2023.05.01 |
---|---|
[통계 기초] #5. 확률, 확률분포 (2) | 2023.04.30 |
[통계 기초] #4. 기술 통계적 측정 방법(평균, 분산, 표준편차, 사분위수, 변동계수, 왜도, 첨도) (0) | 2023.04.29 |
[통계 기초] #3. 모집단, 표본추출 (0) | 2023.04.28 |
[통계 기초] #2. 변수/척도 (0) | 2023.04.23 |