빅데이터 분석기사/실기 요약

[빅데이터분석기사/실기요약] 제3유형. 통계전공자의 파이썬 회귀분석

✨️데이터분석가✨️ 2025. 6. 26. 00:27
728x90
728x90

빅데이터분석기사 실기 제3유형은 2문제가 각 15점으로 출제되며, 2문제에는 각 소문항이 3개씩 있습니다.

부분 점수도 있으니 알고 있는 부분까지 최선을 다해 풀어야 합니다. 

 

제3유형은 통계 기반 분석가설 검정 능력을 평가하는 유형이라,

코딩뿐만 아니라, 통계적 검정 방법에 대한 이해와 활용력을 요구하기에 비전공자는 다소 까다로운 유형으로 보입니다. 그래도 자주 출제되는 유형이 있어서 [회귀분석] 한 놈만 팬다!로 공부하면 15점은 맞출 수 있습니다!

 

 


아래는 유형별 분석 코드 예시이며, 주로 [3. 수치형 데이터 분석]에서 많이 출제되고 있습니다.

model.summary()로 나온 결과에서 유의확률 or 회귀계수 or 결정계수 값만 작성하면 되기에 어렵지 않으니,꼭! 실습문제 풀어서 공부해 가시길 바랍니다.

 

# 1. 가설검정
import pandas as pd
import numpy as np
from scipy import stats
 
# 1-1) 단일표본검정 - 특정 값이 맞는지/아닌지 검정
print(stats.ttest_1samp(df['가격'], 100))
 
# 1-2) 대응표본검정 - 같은 그룹 전/후 비교
print(stats.ttest_rel(df['before'], df['after'], alternative='less'))
 
# 1-3) 독립표본검정 - 다른 그룹 간 차이 비교
print(stats.ttest_ind(A, B)) # t-검정통계량, p-value

----------------------------------------------------------------------------------------------------------------------------------------------------
# 2. 범주형 데이터 분석
import pandas as pd
import numpy as np
from scipy import stats

# 2-1) 적합도 검정 - 실제값 vs. 예상값 비교
ob = [4, 3, 2, 11] # 실제값
ex = [0.1*20, 0.05*20, 0.15*20, 0.7*20] # 예상값
stats.chisquare(ob, ex) # 카이제곱 검정통계량, p-value 분석

# 2-2) 독립성/동질성 검정 - 두 변수가 독립적인지 (교차표 형태)
df= pd.DataFrame({'합격': [80, 90], '불합격': [20, 10]}) # ①
stats.chi2_contingency(df)
crosstab = pd.crosstab(df['학과'], df['성별']) # ②
stats.chi2_contingency(crosstab)

----------------------------------------------------------------------------------------------------------------------------------------------------
# 3. 수치형 데이터 분석
import pandas as pd
import numpy as np
from scipy import stats
from statsmodels.formula.api import ols # 선형 회귀 분석
from statsmodels.formula.api import logit # 로지스틱 회귀 분석

df = pd.read_csv('data.csv')

model = ols('Price ~ City + Distance + Usage', data=df).fit() # 종속변수 ~ 독립변수
print( model.summary() ) # 유의확률(p-value), 회귀계수(coef), 결정계수(R-squared) 분석

# (단순/다중) 선형 회귀 분석
print( model.predict(pd.DataFrame({'광고비':[50], '플랫폼':[20]})) ) # 광고비 50, 플랫폼 20일 때 매출액 예측값
pred = model.get_prediction(pd.DataFrame({'광고비':[50], '플랫폼':[20]}))
print( pred.summary_frame(alpha=0.05) ) # 예측값에 대한 신뢰구간(mean) / 예측구간(obs)
print( (model.resid ** 2).sum() ) # 잔차 제곱합
print( (model.resid ** 2).mean() ) # MSE

 

# (오즈비) 로지스틱
coef = model.params['Usage'] # Usage의 회귀계수
print( np.exp(coef * 5) ) # 5단위 증가할 때의 오즈비

 

 

 

 

 

 

[빅데이터분석기사/실기] 제3유형. 통계분석 이론 - 가설검정, 범주형/수치형 데이터 분석

제3유형은 통계 분석에 대한 문제를 풀고 답안을 제출하는 유형이며, 총 2문제가 출제됩니다.통계 비전공자에게는 굉장히 난이도가 높은 유형이라, 자주 출제되는 분석 기법들을 중점적으로 학

dataslog.tistory.com

 

 

 

 

 

728x90
728x90