728x90
728x90
빅데이터분석기사 실기 제3유형은 2문제가 각 15점으로 출제되며, 2문제에는 각 소문항이 3개씩 있습니다.
부분 점수도 있으니 알고 있는 부분까지 최선을 다해 풀어야 합니다.
제3유형은 통계 기반 분석 및 가설 검정 능력을 평가하는 유형이라,
코딩뿐만 아니라, 통계적 검정 방법에 대한 이해와 활용력을 요구하기에 비전공자는 다소 까다로운 유형으로 보입니다. 그래도 자주 출제되는 유형이 있어서 [회귀분석] 한 놈만 팬다!로 공부하면 15점은 맞출 수 있습니다!
아래는 유형별 분석 코드 예시이며, 주로 [3. 수치형 데이터 분석]에서 많이 출제되고 있습니다.
model.summary()로 나온 결과에서 유의확률 or 회귀계수 or 결정계수 값만 작성하면 되기에 어렵지 않으니,꼭! 실습문제 풀어서 공부해 가시길 바랍니다.
# 1. 가설검정
import pandas as pd
import numpy as np
from scipy import stats
# 1-1) 단일표본검정 - 특정 값이 맞는지/아닌지 검정
print(stats.ttest_1samp(df['가격'], 100))
# 1-2) 대응표본검정 - 같은 그룹 전/후 비교
print(stats.ttest_rel(df['before'], df['after'], alternative='less'))
# 1-3) 독립표본검정 - 다른 그룹 간 차이 비교
print(stats.ttest_ind(A, B)) # t-검정통계량, p-value
----------------------------------------------------------------------------------------------------------------------------------------------------
# 2. 범주형 데이터 분석
import pandas as pd
import numpy as np
from scipy import stats
# 2-1) 적합도 검정 - 실제값 vs. 예상값 비교
ob = [4, 3, 2, 11] # 실제값
ex = [0.1*20, 0.05*20, 0.15*20, 0.7*20] # 예상값
stats.chisquare(ob, ex) # 카이제곱 검정통계량, p-value 분석
# 2-2) 독립성/동질성 검정 - 두 변수가 독립적인지 (교차표 형태)
df= pd.DataFrame({'합격': [80, 90], '불합격': [20, 10]}) # ①
stats.chi2_contingency(df)
crosstab = pd.crosstab(df['학과'], df['성별']) # ②
stats.chi2_contingency(crosstab)
----------------------------------------------------------------------------------------------------------------------------------------------------
# 3. 수치형 데이터 분석
import pandas as pd
import numpy as np
from scipy import stats
from statsmodels.formula.api import ols # 선형 회귀 분석
from statsmodels.formula.api import logit # 로지스틱 회귀 분석
df = pd.read_csv('data.csv')
model = ols('Price ~ City + Distance + Usage', data=df).fit() # 종속변수 ~ 독립변수
print( model.summary() ) # 유의확률(p-value), 회귀계수(coef), 결정계수(R-squared) 분석
# (단순/다중) 선형 회귀 분석
print( model.predict(pd.DataFrame({'광고비':[50], '플랫폼':[20]})) ) # 광고비 50, 플랫폼 20일 때 매출액 예측값
pred = model.get_prediction(pd.DataFrame({'광고비':[50], '플랫폼':[20]}))
print( pred.summary_frame(alpha=0.05) ) # 예측값에 대한 신뢰구간(mean) / 예측구간(obs)
print( (model.resid ** 2).sum() ) # 잔차 제곱합
print( (model.resid ** 2).mean() ) # MSE
# (오즈비) 로지스틱
coef = model.params['Usage'] # Usage의 회귀계수
print( np.exp(coef * 5) ) # 5단위 증가할 때의 오즈비
[빅데이터분석기사/실기] 제3유형. 통계분석 이론 - 가설검정, 범주형/수치형 데이터 분석
제3유형은 통계 분석에 대한 문제를 풀고 답안을 제출하는 유형이며, 총 2문제가 출제됩니다.통계 비전공자에게는 굉장히 난이도가 높은 유형이라, 자주 출제되는 분석 기법들을 중점적으로 학
dataslog.tistory.com
728x90
728x90
'빅데이터 분석기사 > 실기 요약' 카테고리의 다른 글
[빅데이터분석기사/실기요약] 제2유형. 파이썬 템플릿 (암기용 요약 자료) (1) | 2025.06.25 |
---|---|
[빅데이터분석기사/실기요약] 제1유형. 파이썬 핵심코드 (1) | 2025.06.25 |
[빅데이터분석기사/실기후기] 10회 시험 후기 및 문제 복기 (6) | 2025.06.22 |
[빅데이터분석기사/실기] 제3유형. 통계분석 이론 - 가설검정, 범주형/수치형 데이터 분석 (2) | 2025.06.08 |
[빅데이터분석기사/실기] 제2유형. 모의문제 (0) | 2025.06.08 |