통계 분석

[통계 기초] #5. 확률, 확률분포

✨️데이터분석가✨️ 2023. 4. 30. 11:00
728x90
728x90
[목차]
1. 확률
2. 베이지안 이론
3. 확률분포
4. 중심극한정리

 

1. 확률

 

1) 확률 개념

: 특정 사건이 일어날 수 있는 가능성의 정도

: 0~1 범위이며,  0 = 절대 일어나지 않음 / 1 = 항상 일어남

: P(A) = x / n

 

2) 확률 종류

① 비조건확률 = 한계확률

: 사건이 일어날 확률

: P(A), P(B)

 

② 결합확률

: 두 개 이상의 사건이 동시에 일어나는 확률

: P(AB), 교집합

 

③ 조건부확률

: A 사건이 발생하였다는 조건하에 B 사건이 발생할 확률

: 결합확률보다 확률 값이 높음

: P(B|A) = P(AB) / P(A) 

 


2. 베이지안 이론

 

: 사건과 관련있는 여러 확률을 이용해 새롭게 일어날 사건을 추정하는 것

예) 마케팅 캠페인 효과 측정, 상품 가격모델링 등

: 사전확률 P(A)와 우도확률 P(B|A)를 안다면, 사후확률 P(A|B)를 알 수 있음

* p(A), 사전확률(prior): A(원인)가 발생할 확률

* P(B|A), 우도확률(likehood): A(원인)가 발생하였다는 조건하에 B(결과)가 발생할 확률 

* P(A|B), 사후확률(posterior): B(결과)가 발생하였다는 조건하에 A(원인)가 발생했을 확률

 


3. 확률분포

구분 이산확률분포 연속확률분포
정의 셀 수 있는 실수값의 분포
특정 이 발생할 수 있는 확률
연속형 값의 분포
특정 구간에 속할 확률
표현 함수 확률질량함수 확률밀도함수
분포 균등분포, 이항분포,
초기하분포, 포아송분포
정규(Z)분포, t분포, 카이제곱(X²)분포,
F분포, 지수분포

확률분포 형태
확률분포 형태

 

1) 이산확률분포

① 균등분포

: 동일한 확률을 가지는 분포 (예, 주사위)

 

② 이항분포

: 1과 0의 값만 갖는 분포, 1 = 성공 / 0 = 실패

: 베르누이 시행 n번 반복 시, k번 성공할 확률

* 베르누이 시행: 독립적인 두 가지 결과 중 하나만 나오는 시행

이항분포
이항분포

 

③ 초기하분포

: 비복원추출이라 시행할 때마다 확률이 달라짐

초기하분포
초기하분포

 

④ 포아송분포

: 관측 공간에서 특정 사건이 발생하는 횟수

: 사건은 독립적이며, 발생 비율은 항상 같음

예) 품질관리, 보험상품 개발 등

포아송분포
포아송분포

 

 

2) 연속확률분포

① 정규분포 = 가우스분포

: 평균을 중심으로 좌우대칭인 종 모양의 형태

정규분포
정규분포

: 품질혁신을 뜻하는 식스시그마(6σ)는 ±6 표준편차의 확률만큼 제품 품질을 유지한다는 의미

 

# 표준정규분포

: 평균=0, 분산=1인 정규분포

: 표준화한 값(Z)로 변환하여 다른 정규분포 간 비교 가능

 

② 지수분포

: 다음 사건이 발생할 때까지의 시간을 확률변수값으로 하는 분포

: 평균에 따라 기울기가 정해짐

지수분포
지수분포
지수분포의 평균, 분산, 표준편차
지수분포의 평균, 분산, 표준편차
지수분포의 확률
지수분포의 확률

 


4. 중심극한정리

 

: 데이터 크기(n)가 일정한 양을 넘으면, 평균의 분포는 정규분포에 근사한다는 이론

: 표본을 여러 번 추출했을 때, '각각의 표본' 평균들의 분포가 정규분포를 이룬다는 뜻

표본크기별 분포
표본크기별 분포

 

728x90
728x90