빅데이터 분석기사/필기 기출

[빅데이터분석기사/필기기출] 5회 기출문제(22년 10월)

✨️데이터분석가✨️ 2024. 10. 3. 22:09
728x90
728x90

[1과목. 빅데이터 분석기획]

문1. 빅데이터 분석 기획 과정의 WBS를 작성하는 단계는?

☞ 프로젝트 계획 수립

 

문2. CRISP-DM 방법론의 프로세스는?

비즈니스 이해 → 데이터 이해 → 데이터 준비 → 모델링 평가 전개 

 

문3. 인공지능, 머신러닝, 딥러닝의 상호관계는?

인공지능 > 머신러닝 > 딥러닝

 

문4. 관계형 데이터베이스 기반 구조를 하둡 기반으로 전환하고, 이를 모니터링하는 직무는?

데이터 엔지니어

 

문5. 개인정보 비식별화 조치에 대한 설명은?

총계 처리는 개별 데이터의 값을 데이터의 총합으로 대체하는 것을 의미

☞ 가명 처리는 개인정보 중 주요 식별정보를 다른 값으로 대체하는 것을 의미

 데이터 마스킹은 개인정보 중 주요 식별정보의 전체 또는 부분적으로 대체하는 것을 의미

(오답: 데이터 범주화는 개인정보 중 주요 식별정보를 삭제하는 것을 의미 → 해당 그룹의 대표 값 or 구간 값으로 대체하는 것을 의미)

 

문6. 데이터 품질진단 절차에서 데이터를 측정하고 분석하여 수치를 산출하는 단계는?

데이터 품질측정

 

문7. 개인정보보호법 관련 설명은?

데이터 처리 사실 및 목적 등 공개를 통해 투명성을 확보해야 함

 데이터 3법은 개인정보보호법, 정보통신망법, 신용정보법의 개정안임

개인정보가 재식별될 경우 즉시 파기하거나 비식별화 조치를 추가로 해야 함

(오답: 데이터 3법 개정으로 가명처리 후 활용 시 정보주체의 동의가 필요함 → 가명처리 후 정보주체 동의 없이 활용 가능함)

 

문8. 관계형 데이터처럼 테이블 형태로 구조화되어 있지 않지만, 메타데이터의 특성을 갖고 있는 데이터는?

반정형 데이터

 

문9. 총계 처리 기법의 단점은?

집계 처리되어 정밀한 분석이 어려움

 재배열 방법의 경우 개인의 특성을 파악하기 어려움

데이터 양이 적을 경우 데이터 결합 과정에서 개인정보 예측이 가능함

(오답: 총계 처리는 비식별화가 불가능함 → 개인정보 비식별화 기법임)

 

문10. 자료 수집 방법에 대한 설명은?

FGI는 전문가 설문조사 후, 온/오프라인 면담을 수행함

브레인스토밍은 참여자들이 자유롭게 생각을 나열하고 아이디어를 제시하는 방식

스캠퍼는 창의적 문결 해결 기법으로, 기존 아이디어를 다양한 방법으로 발전시키는 것

 

문11. 데이터 수집 기술에 대한 설명은?

스쿱 : 관계형 데이터베이스 시스템(DBMS)에서 하둡 파일 시스템(HDFS)으로 커넥터를 이용하여 데이터를 수집할 수 있는 기술

크롤링 : 웹 사이트에서 SNS, 뉴스 등 웹 문서 및 콘텐츠를 수집할 수 있는 기술

☞ API : 시스템 간 연동을 통해 실시간으로 데이터를 수집할 수 있는 기술

(FTP : 여러 서버로부터 로그 파일 등을 실시간으로 수집할 수 있는 기술 → 시스템 간에 파일을 공유하기 위한 기술)

 

문12. 특정 분야에서 학습된 신경망을 다른 분야의 신경망 학습에 활용하는 방법은?

전이학습(Transfer Learning)

 

문13. 데이터 분석 방법론 프로세스에서 데이터를 이해하고 수집하는 단계는?

데이터 준비

 

문14. 데이터 및 자원 할당 관리, 빅데이터 어플리케이션 실행을 위한 서비스를 제공하는 빅데이터 플랫폼 계층 구조는?

플랫폼 계층

 

문15. 병렬 DBMS의 특성은?

다수의 마이크로프로세서를 동시에 사용함

데이터 처리가 빠름

시스템 용량 확장이 쉬움

(오답: 데이터 중복값이 증가함 → 데이터를 중복하여 저장하지 않음)

 

문16. 빅데이터 분석에 대한 설명은?

 개인 프라이버시 침해 위험이 있음

신제품의 판매량을 예측할 수 있음

공공부문에서 비용을 절감할 수 있음

(오답: 항상 경제적으로 이익을 얻을 수 있음)

 

문17. 여러 시스템에서 필요한 원천 데이터를 추출하고 변환하여 적재하는 기술은?

FTP

 

문18. 예측을 위한 분석 방법은?

예측 분석

 

문19. 분석기획에서 비즈니스 계획 수립 절차는?

비즈니스 이해 및 범위 설정

프로젝트 정의 및 계획 수립

프로젝트 위험 계획 수립

(오답: 모델 발전 계획 수립 → 평가 및 전개 단계)

 

문20. 데이터 저장 기술은?

RDB

 DFS

NoSQL

(오답: 텍스트 마이닝)

 

 


[2과목. 빅데이터 탐색]

문21. 단위 시간 안에 발생한 특정 사건의 수를 표현하는 이산확률 분포는?

포아송 분포

 

문22. 모평균의 95% 신뢰구간을 구하는 식에서 Z값은? 

 1.96

 

문23. 임의로 추출된 20명에게 다이어트 약을 투여한 후, 약의 전후 효과를 비교하려고 한다. 약 투여 후, 체중이 줄었는지 검정하기 위한 분포는?

대응표본, 단측검정

 

문24. 공분산에 대한 설명은?

X, Y가 독립이면, Cov(X,Y)=0임

Cov(X,Y)=0이 아니면, 변수 간의 상관관계를 가짐

 Cov(X,Y)>0 이면, X값이 상승할 때 Y값도 상승하는 경향을 보임

(오답: Cov(X,Y)=0이면 X, Y는 항상 상호 독립임 → 선형관계가 없음을 의미함)

 

25. 클래스 불균형 데이터를 처리하기 위한 방안은?

가중치 균형방법

언더샘플링

오버샘플링

(오답: 정규화)

 

문26. 모집단의 표준편차를 알지 못하는 경우, 평균 차이에 대한 검정을 수행하는 분포는?

 자유도 N-1, t분포

 

문27. 우하향하는 산점도의 피어슨 상관계수는?

 -0.9

 

문28. 분포가 한쪽으로 기울어진 변수를 분석하기 쉽게 변환하고자 할 때, 적절한 변수 변환 방법은?

로그 변환

 

문30. 데이터 양의 차이가 클 경우에 대한 전처리 기법은?

클래스 불균형 처리

 

문31. 표본분포에 대한 설명은?

표본 크기가 커질수록 표본 평균의 분산은 0에 가까워짐

중심극한정리는 모집단 분포와 상관없이 적용됨

모분산을 모르는 경우 정규분포 대신 t-분포를 사용함

(오답: 표본 크기와 관계없이 표본평균의 기댓값은 항상 모평균과 동일함 → 표본 크기가 커질수록 표본평균은 모평균에 수렴함)

 

문32. 인코딩 기법에 대한 설명은?

 레이블 인코딩은 각 범주를 숫자에 대치시킴

원 핫 인코딩을 적용하면 sparse한 데이터가 됨

원 핫 인코딩을 적용할 때보다 바이너리 인코딩을 적용할 때 모델 학습속도가 더 빠름

(오답: 타깃 인코딩은 종속변수 값들의 표준편차를 활용함 → 범주형 특성을 인코딩하기에 표준편차에는 사용하지 않음)

 

문33. 데이터 변환 기술에 대한 설명은?

 집계 : 데이터를 요약하거나 그룹화하여 통계적 정보를 얻음

일반화 : 데이터의 일반적인 특성/패턴을 추출하는 기술

정규화 : 데이터를 일정 범위로 조정하여 상대적인 크기 차이를 제거하고 데이터를 표준화하는 기술

(오답: 평활화 : 분산과 표준편차 등을 이용하여 데이터 특성을 파악함 → 데이터의 노이즈를 제거하여 데이터의 추세/패턴을 부드럽게 만드는 기술)

 

문34. 데이터 탐색에 대한 설명은?

히스토그램은 도수분포표를 이용하여 표본의 자료분표를 시각화 함

파이차트의 원의 면적은 상대도수를 이용함

산점도로 이상치를 확인할 수 있음

(오답: 박스플롯 제1사분위는 75백분율 데이터를 의미함 → 25백분율)

 

문35. 정규분포를 다루는 확률분포에서 모집단으로부터 표본의 크기가 4개인 확률변수를 추출한다. X₁, X₂, X₃, X₄는?

표본은 정규분포를 따름

표본표준편차는 모집단의 표준편차를 2로 나눈 값임

표본크기를 늘리면 표본평균은 모집단 평균에 가까워짐

(오답: X₂, X₃는 서로 종속임 → 알 수 없음)

 

문36. 데이터 변수 척도에 대한 설명은?

회귀분석을 위해 명목형 척도를 더미변수화 함

크기(소/중/대) 구분은 순서형 척도임

데이터 값이 정수인 경우 수치형 척도에 해당함

(오답: 연속형 척도와 범주형 척도는 평균/표준편차와 같은 기술 통계량을 구할 수 있음)

 

문37. 점으로 값을 표현한 시각화 기법은?

 산점도

 

문38. 일부 응답 값이 누락되어 대치하는 경우, 대푯값으로 적절한 것은?

 중앙값

 

문39. 확률분포에 대한 설명은?

이산확률분포에는 이항분포, 포아송분포가 있음

확률질량함수는 이산확률변수의 확률분포를 나타내는 함수임

확률밀도함수의 면적이 그 구간에 해당하는 확률값임

(오답: 연속확률분포에는 초기하분포, 지수분포가 있음)

 

문40. 상자 수염 그림과 이상치에 대한 설명은?

 상자 범위는 Q1~Q3임

IQR의 1.5배 이내 데이터는 이상치가 아님 

상자 수염 그림에서 중앙값을 확인할 수 있음 

(오답: 수염보다 바깥쪽에 존재하는 모든 데이터들은 이상치임 → 모두는 아님)

 

 


[3과목. 빅데이터 모델링]

문41. 분석 모형 선정에 대한 설명은?

데이터 특성에 따라 적용 가능한 분석모형이 다름

비지도 학습을 통해 데이터 패턴 도출이 가능함

소셜 네트워크 분석으로 사회적 관계를 시각화할 수 있음

(오답: 비용민감함수는 주요인자 분석에 사용함 → 불균형 데이터에 사용함)

 

문42. 시간에 따른 일별 기온 변화를 표현할 수 있는 기법은?

시계열 분석

 

문43. 드롭아웃 효과와 동일한 효과를 가지는 기법은?

데이터 증강

 

문44. k-fold 교차 검증에 대한 설명은?

데이터를 k개로 나눔

 데이터 양이 충분하지 않을 때 사용되는 편임

평가 데이터를 제외한 나머지 데이터는 검증에 최소 한 번 사용됨

(오답: 훈련, 검증, 평가 데이터 셋을 2:3:5 비율로 구성함 → 홀드아웃 교차 검증)

 

문45. 인공신경망 모형에서 과적합을 방지할 수 있는 방법은?

 정규화

드롭아웃

조기 종료

(오답: 가지치기)

 

문46. 덴드로그램 그래프에서 h=4 기준으로 군집 분리 시, 묶이는 군집의 개수는?

2개

 

문47. 텍스트 마이닝 기법으로 단어를 벡터화하는 변환 기법은?

TF-IDF

One-hot encoding

Word Embedding

(오답: Pos-tagging)

 

문48. 회귀 분석 모형에서 변수를 선택하는 방법은?

전진 선택법

 후진 제거법

단계적 선택법

(오답: 차수 선택법)

 

문49. 모형 선정에 대한 설명은?

나이브 베이즈 모델은 범주형 독립변수 및 종속변수를 사용함

일반적으로 설명력이 좋은 모형은 예측력이 떨어짐

SOM은 비지도 학습에 속함

(오답: 단순한 모형보다 복잡한 모형이 무조건 좋음)

 

문50. 로지스틱 회귀에 관한 설명은?

y값이 0~1 사이 값을 가지고 이진 분류함

 

문51. 시계열 모형 기법인 ARIMA 모형에 대한 설명은?

정상성을 보이는 시계열은 추세나 계절성이 없음

AR모델은 변수의 과거 값을 이용함

MA모델은 과거 예측 오차를 이용함

(오답: 백색 잡음은 서로 독립적이지 않음 → 정상 시계열로 서로 독립적이고 동일한 분포를 따름)

 

문52. 주성분 분석에 대한 설명은?

 주성분끼리는 서로 직교함

주성분 분석은 고차원 데이터를 저차원으로 변환함

주성분은 기존 변수들의 선형결합으로 이루어져 있음

(오답: 주성분 분석을 하기 위해서는 변수의 수가 표본의 수보다 항상 커야 함)

 

문53. 비모수 검정에 대한 설명은?

윌콕슨 순위합 검정은 중위수의 차이를 검정함

크루스칼-왈리스 검정은 분산분석에서 정규성 가정이 만족되지 않을 때 사용함

일반적으로 모수 검정보다 검정력이 떨어짐

(오답: 만-휘트니 검정은 양측 모수 검정임 → 두 집단의 중위수 차이를 검정하는 비모수 검정임)

 

문54. 암 환자에 신약 효과 조사 결과에 대해 옳은 설명은?

  초기 말기 합계
  생존 사망 생존 사망 생존 사망
A약 16 4 4 16 20 20
B약 7 3 9 21 16 24

A약 환자 생존률은 50%, B약 환자 생존률은 40%임

 

문55. 연관규칙 측도 중 하나로, A항목이 포함된 거래 중 A항목과 B항목이 동시에 포함된 거래의 비율을 나타내는 지표는?

 신뢰도

 

문56. 요인 분석에 대한 설명은?

고차원의 데이터를 저차원으로 축소함

변수들의 상관관계를 기반으로 공통의 요인을 찾음

요인 분석 결과로 만들어진 새로운 변수들은 서로 대등함

(오답: 요인 회전 방법으로 VariMax, ScreeMax 등이 있음)

 

문57. 독립변수와 종속변수 척도에 따른 통계분석 방법에 대한 설명은?

t-검정은 수치형 종속변수와 2개 범주의 독립변수를 사용하여 분석하는 방법임

로짓모형은 범주형 종속변수와 범주형 및 수치형 독립변수를 사용하여 분석하는 방법임

카이제곱검정은 범주형 종속변수와 범주형 독립변수를 사용하여 분석하는 방법임

(오답: 공분산 분석은 종속변수가 범주형, 독립변수가 연속형인 분석 방법임 → 종속변수가 연속형, 독립변수가 범주형)

 

문59. 의사결정나무 분석 결과에서 뿌리노드만 남는 이유는?

변별력 있는 변수가 없어 분리를 정지함

 

문60. 데이터 분석 결과 산출물은?

분석 모델

변수 정의서

EDA 보고서

(오답: 알고리즘 보완 계획서)

 

 


[4과목. 빅데이터 결과 해석]

문61. ROC 곡선의 축을 구성하는 지표는?

 민감도, 특이도

 

문62. 분석 결과 스토리텔링을 준비하는 과정에서 수행해야 하는 일은?

사용자 데이터 정의

 사용자 시나리오 작성

 스토리보드 기획

(오답: 스토리보드 도구 검증)

 

문63. 다음(그림)의 시각화 기법은?

☞ 히트맵

 

문64. 최종 모델을 평가하는 기준은?

 평가 지표

예측의 정확성

분류의 정확성

(오답: 표본의 충분성)

 

문65. 분류모형 평가에 대한 설명은?

☞ 세로축은 재현율을 나타냄

 F1-score는 정밀도와 재현률의 조화평균 값

 AUC 값이 1에 가까울수록 분류 모델의 성능이 좋음

(오답: ROC 곡선으로 혼동행렬을 구할 수 있음 → 혼동행렬은 예측 값과 실제 값의 조합을 교차표로 나타낸 것)

 

문66. 분석모형 평가지표에 대한 공식으로 옳은 것은?

 MAE, MAPE, MSE, RMSE 공식

 

문67. 정규성 검정 기법은?

 Q-Q plot

 샤피로-윌크 검정

 콜모고로프-스미르노프 검정

(오답: 카이제곱 검정)

 

문68. 일반화 선형 모형(GLM)에 대한 설명은?

 종속변수가 이항분포이면 연결함수로 logit함수를 사용함

 종속변수의 정규성이 성립하지 않아도 사용할 수 있음

 로지스틱 회귀가 대표적인 일반화 선형 모형임

 

문69. 비교시각화 기법은?

☞ 히트맵

☞ 스타차트

 체르노프 페이스

(오답: 버블차트)

 

문70. 관계시각화 기법은?

☞ 산점도

☞ 히트맵

☞ 버블차트

(오답: 누적막대그래프)

 

문71. 민감도가 0.6, 정밀도가 0.4인 경우, F1-score 값은?

 0.48

 

문72. 앙상블 모형에 대한 설명은?

 랜덤포레스트가 대표적인 앙상블 모형임

 배깅은 부트스트랩 샘플을 사용함

(오답: 부스팅은 정답에 더 높은 가중치를 부여하여 모델 성능을 올리는 방법임 → 오답에 높은 가중치를 부여함) 

 

문73. 신경망 모형에서 발생하는 Gradient Vanishing 문제에 대한 설명은?

 오차 역전파 과정에서 기울기가 감소하여 가중치가 업데이트되지 않는 현상임

 

문74. 앙상블 모형의 베이스 모형들을 독립적으로 최적화시키는 방법은?

 학습 데이터셋을 다양화 함

하이퍼파라미터 최적화 기법을 사용함

 학습 시간을 늘림

(오답: 평가 데이터셋을 다양화 함 → 성능 측정이며, 최적화 방법은 아님)

 

문75. 재현율 공식은?

 TP / (TP+FN)

 

문76. 분석 모형 해석에 대한 설명은?

예측 분석은 현재 분석결과를 통해 미래를 예측함

 

문77. 과적합을 해결하기 위한 방법은?

 벌점화 회귀를 사용하여 모형에 제약조건을 추가함

 

문78. 과적합에 대한 설명은?

 모형의 분산이 큼

 일반화 성능이 낮은 상태임

 모형이 과도하게 복잡한 상태임

(오답: 과적합은 비선형모형보다 선형모형에서 더 쉽게 발생함)

 

문79. 인포그래픽에 대한 설명은?

 중요한 정보를 효과적으로 나타낼 수 있음

그래픽과 텍스트를 사용하여 이해하기 쉽게 만듬

 디자인적 요소를 고려하여 만듬

(오답: 데이터의 패턴을 발견할 수 있음)

 

문80. 빅데이터 시각화 절차에 해당하는 요소는?

☞ 분석

☞ 표현

☞ 지시

(오답: 정제)

 

 

 

728x90
728x90