[빅데이터분석기사/필기기출] 5회 기출문제(22년 10월)
[1과목. 빅데이터 분석기획]
문1. 빅데이터 분석 기획 과정의 WBS를 작성하는 단계는?
☞ 프로젝트 계획 수립
문2. CRISP-DM 방법론의 프로세스는?
☞ 비즈니스 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개
문3. 인공지능, 머신러닝, 딥러닝의 상호관계는?
☞ 인공지능 > 머신러닝 > 딥러닝
문4. 관계형 데이터베이스 기반 구조를 하둡 기반으로 전환하고, 이를 모니터링하는 직무는?
☞ 데이터 엔지니어
문5. 개인정보 비식별화 조치에 대한 설명은?
☞ 총계 처리는 개별 데이터의 값을 데이터의 총합으로 대체하는 것을 의미
☞ 가명 처리는 개인정보 중 주요 식별정보를 다른 값으로 대체하는 것을 의미
☞ 데이터 마스킹은 개인정보 중 주요 식별정보의 전체 또는 부분적으로 대체하는 것을 의미
(오답: 데이터 범주화는 개인정보 중 주요 식별정보를 삭제하는 것을 의미 → 해당 그룹의 대표 값 or 구간 값으로 대체하는 것을 의미)
문6. 데이터 품질진단 절차에서 데이터를 측정하고 분석하여 수치를 산출하는 단계는?
☞ 데이터 품질측정
문7. 개인정보보호법 관련 설명은?
☞ 데이터 처리 사실 및 목적 등 공개를 통해 투명성을 확보해야 함
☞ 데이터 3법은 개인정보보호법, 정보통신망법, 신용정보법의 개정안임
☞ 개인정보가 재식별될 경우 즉시 파기하거나 비식별화 조치를 추가로 해야 함
(오답: 데이터 3법 개정으로 가명처리 후 활용 시 정보주체의 동의가 필요함 → 가명처리 후 정보주체 동의 없이 활용 가능함)
문8. 관계형 데이터처럼 테이블 형태로 구조화되어 있지 않지만, 메타데이터의 특성을 갖고 있는 데이터는?
☞ 반정형 데이터
문9. 총계 처리 기법의 단점은?
☞ 집계 처리되어 정밀한 분석이 어려움
☞ 재배열 방법의 경우 개인의 특성을 파악하기 어려움
☞ 데이터 양이 적을 경우 데이터 결합 과정에서 개인정보 예측이 가능함
(오답: 총계 처리는 비식별화가 불가능함 → 개인정보 비식별화 기법임)
문10. 자료 수집 방법에 대한 설명은?
☞ FGI는 전문가 설문조사 후, 온/오프라인 면담을 수행함
☞ 브레인스토밍은 참여자들이 자유롭게 생각을 나열하고 아이디어를 제시하는 방식
☞ 스캠퍼는 창의적 문결 해결 기법으로, 기존 아이디어를 다양한 방법으로 발전시키는 것
문11. 데이터 수집 기술에 대한 설명은?
☞ 스쿱 : 관계형 데이터베이스 시스템(DBMS)에서 하둡 파일 시스템(HDFS)으로 커넥터를 이용하여 데이터를 수집할 수 있는 기술
☞ 크롤링 : 웹 사이트에서 SNS, 뉴스 등 웹 문서 및 콘텐츠를 수집할 수 있는 기술
☞ API : 시스템 간 연동을 통해 실시간으로 데이터를 수집할 수 있는 기술
(FTP : 여러 서버로부터 로그 파일 등을 실시간으로 수집할 수 있는 기술 → 시스템 간에 파일을 공유하기 위한 기술)
문12. 특정 분야에서 학습된 신경망을 다른 분야의 신경망 학습에 활용하는 방법은?
☞ 전이학습(Transfer Learning)
문13. 데이터 분석 방법론 프로세스에서 데이터를 이해하고 수집하는 단계는?
☞ 데이터 준비
문14. 데이터 및 자원 할당 관리, 빅데이터 어플리케이션 실행을 위한 서비스를 제공하는 빅데이터 플랫폼 계층 구조는?
☞ 플랫폼 계층
문15. 병렬 DBMS의 특성은?
☞ 다수의 마이크로프로세서를 동시에 사용함
☞ 데이터 처리가 빠름
☞ 시스템 용량 확장이 쉬움
(오답: 데이터 중복값이 증가함 → 데이터를 중복하여 저장하지 않음)
문16. 빅데이터 분석에 대한 설명은?
☞ 개인 프라이버시 침해 위험이 있음
☞ 신제품의 판매량을 예측할 수 있음
☞ 공공부문에서 비용을 절감할 수 있음
(오답: 항상 경제적으로 이익을 얻을 수 있음)
문17. 여러 시스템에서 필요한 원천 데이터를 추출하고 변환하여 적재하는 기술은?
☞ FTP
문18. 예측을 위한 분석 방법은?
☞ 예측 분석
문19. 분석기획에서 비즈니스 계획 수립 절차는?
☞ 비즈니스 이해 및 범위 설정
☞ 프로젝트 정의 및 계획 수립
☞ 프로젝트 위험 계획 수립
(오답: 모델 발전 계획 수립 → 평가 및 전개 단계)
문20. 데이터 저장 기술은?
☞ RDB
☞ DFS
☞ NoSQL
(오답: 텍스트 마이닝)
[2과목. 빅데이터 탐색]
문21. 단위 시간 안에 발생한 특정 사건의 수를 표현하는 이산확률 분포는?
☞ 포아송 분포
문22. 모평균의 95% 신뢰구간을 구하는 식에서 Z값은?
☞ 1.96
문23. 임의로 추출된 20명에게 다이어트 약을 투여한 후, 약의 전후 효과를 비교하려고 한다. 약 투여 후, 체중이 줄었는지 검정하기 위한 분포는?
☞ 대응표본, 단측검정
문24. 공분산에 대한 설명은?
☞ X, Y가 독립이면, Cov(X,Y)=0임
☞ Cov(X,Y)=0이 아니면, 변수 간의 상관관계를 가짐
☞ Cov(X,Y)>0 이면, X값이 상승할 때 Y값도 상승하는 경향을 보임
(오답: Cov(X,Y)=0이면 X, Y는 항상 상호 독립임 → 선형관계가 없음을 의미함)
25. 클래스 불균형 데이터를 처리하기 위한 방안은?
☞ 가중치 균형방법
☞ 언더샘플링
☞ 오버샘플링
(오답: 정규화)
문26. 모집단의 표준편차를 알지 못하는 경우, 평균 차이에 대한 검정을 수행하는 분포는?
☞ 자유도 N-1, t분포
문27. 우하향하는 산점도의 피어슨 상관계수는?
☞ -0.9
문28. 분포가 한쪽으로 기울어진 변수를 분석하기 쉽게 변환하고자 할 때, 적절한 변수 변환 방법은?
☞ 로그 변환
문30. 데이터 양의 차이가 클 경우에 대한 전처리 기법은?
☞ 클래스 불균형 처리
문31. 표본분포에 대한 설명은?
☞ 표본 크기가 커질수록 표본 평균의 분산은 0에 가까워짐
☞ 중심극한정리는 모집단 분포와 상관없이 적용됨
☞ 모분산을 모르는 경우 정규분포 대신 t-분포를 사용함
(오답: 표본 크기와 관계없이 표본평균의 기댓값은 항상 모평균과 동일함 → 표본 크기가 커질수록 표본평균은 모평균에 수렴함)
문32. 인코딩 기법에 대한 설명은?
☞ 레이블 인코딩은 각 범주를 숫자에 대치시킴
☞ 원 핫 인코딩을 적용하면 sparse한 데이터가 됨
☞ 원 핫 인코딩을 적용할 때보다 바이너리 인코딩을 적용할 때 모델 학습속도가 더 빠름
(오답: 타깃 인코딩은 종속변수 값들의 표준편차를 활용함 → 범주형 특성을 인코딩하기에 표준편차에는 사용하지 않음)
문33. 데이터 변환 기술에 대한 설명은?
☞ 집계 : 데이터를 요약하거나 그룹화하여 통계적 정보를 얻음
☞ 일반화 : 데이터의 일반적인 특성/패턴을 추출하는 기술
☞ 정규화 : 데이터를 일정 범위로 조정하여 상대적인 크기 차이를 제거하고 데이터를 표준화하는 기술
(오답: 평활화 : 분산과 표준편차 등을 이용하여 데이터 특성을 파악함 → 데이터의 노이즈를 제거하여 데이터의 추세/패턴을 부드럽게 만드는 기술)
문34. 데이터 탐색에 대한 설명은?
☞ 히스토그램은 도수분포표를 이용하여 표본의 자료분표를 시각화 함
☞ 파이차트의 원의 면적은 상대도수를 이용함
☞ 산점도로 이상치를 확인할 수 있음
(오답: 박스플롯 제1사분위는 75백분율 데이터를 의미함 → 25백분율)
문35. 정규분포를 다루는 확률분포에서 모집단으로부터 표본의 크기가 4개인 확률변수를 추출한다. X₁, X₂, X₃, X₄는?
☞ 표본은 정규분포를 따름
☞ 표본표준편차는 모집단의 표준편차를 2로 나눈 값임
☞ 표본크기를 늘리면 표본평균은 모집단 평균에 가까워짐
(오답: X₂, X₃는 서로 종속임 → 알 수 없음)
문36. 데이터 변수 척도에 대한 설명은?
☞ 회귀분석을 위해 명목형 척도를 더미변수화 함
☞ 크기(소/중/대) 구분은 순서형 척도임
☞ 데이터 값이 정수인 경우 수치형 척도에 해당함
(오답: 연속형 척도와 범주형 척도는 평균/표준편차와 같은 기술 통계량을 구할 수 있음)
문37. 점으로 값을 표현한 시각화 기법은?
☞ 산점도
문38. 일부 응답 값이 누락되어 대치하는 경우, 대푯값으로 적절한 것은?
☞ 중앙값
문39. 확률분포에 대한 설명은?
☞ 이산확률분포에는 이항분포, 포아송분포가 있음
☞ 확률질량함수는 이산확률변수의 확률분포를 나타내는 함수임
☞ 확률밀도함수의 면적이 그 구간에 해당하는 확률값임
(오답: 연속확률분포에는 초기하분포, 지수분포가 있음)
문40. 상자 수염 그림과 이상치에 대한 설명은?
☞ 상자 범위는 Q1~Q3임
☞ IQR의 1.5배 이내 데이터는 이상치가 아님
☞ 상자 수염 그림에서 중앙값을 확인할 수 있음
(오답: 수염보다 바깥쪽에 존재하는 모든 데이터들은 이상치임 → 모두는 아님)
[3과목. 빅데이터 모델링]
문41. 분석 모형 선정에 대한 설명은?
☞ 데이터 특성에 따라 적용 가능한 분석모형이 다름
☞ 비지도 학습을 통해 데이터 패턴 도출이 가능함
☞ 소셜 네트워크 분석으로 사회적 관계를 시각화할 수 있음
(오답: 비용민감함수는 주요인자 분석에 사용함 → 불균형 데이터에 사용함)
문42. 시간에 따른 일별 기온 변화를 표현할 수 있는 기법은?
☞ 시계열 분석
문43. 드롭아웃 효과와 동일한 효과를 가지는 기법은?
☞ 데이터 증강
문44. k-fold 교차 검증에 대한 설명은?
☞ 데이터를 k개로 나눔
☞ 데이터 양이 충분하지 않을 때 사용되는 편임
☞ 평가 데이터를 제외한 나머지 데이터는 검증에 최소 한 번 사용됨
(오답: 훈련, 검증, 평가 데이터 셋을 2:3:5 비율로 구성함 → 홀드아웃 교차 검증)
문45. 인공신경망 모형에서 과적합을 방지할 수 있는 방법은?
☞ 정규화
☞ 드롭아웃
☞ 조기 종료
(오답: 가지치기)
문46. 덴드로그램 그래프에서 h=4 기준으로 군집 분리 시, 묶이는 군집의 개수는?
☞ 2개
문47. 텍스트 마이닝 기법으로 단어를 벡터화하는 변환 기법은?
☞ TF-IDF
☞ One-hot encoding
☞ Word Embedding
(오답: Pos-tagging)
문48. 회귀 분석 모형에서 변수를 선택하는 방법은?
☞ 전진 선택법
☞ 후진 제거법
☞ 단계적 선택법
(오답: 차수 선택법)
문49. 모형 선정에 대한 설명은?
☞ 나이브 베이즈 모델은 범주형 독립변수 및 종속변수를 사용함
☞ 일반적으로 설명력이 좋은 모형은 예측력이 떨어짐
☞ SOM은 비지도 학습에 속함
(오답: 단순한 모형보다 복잡한 모형이 무조건 좋음)
문50. 로지스틱 회귀에 관한 설명은?
☞ y값이 0~1 사이 값을 가지고 이진 분류함
문51. 시계열 모형 기법인 ARIMA 모형에 대한 설명은?
☞ 정상성을 보이는 시계열은 추세나 계절성이 없음
☞ AR모델은 변수의 과거 값을 이용함
☞ MA모델은 과거 예측 오차를 이용함
(오답: 백색 잡음은 서로 독립적이지 않음 → 정상 시계열로 서로 독립적이고 동일한 분포를 따름)
문52. 주성분 분석에 대한 설명은?
☞ 주성분끼리는 서로 직교함
☞ 주성분 분석은 고차원 데이터를 저차원으로 변환함
☞ 주성분은 기존 변수들의 선형결합으로 이루어져 있음
(오답: 주성분 분석을 하기 위해서는 변수의 수가 표본의 수보다 항상 커야 함)
문53. 비모수 검정에 대한 설명은?
☞ 윌콕슨 순위합 검정은 중위수의 차이를 검정함
☞ 크루스칼-왈리스 검정은 분산분석에서 정규성 가정이 만족되지 않을 때 사용함
☞ 일반적으로 모수 검정보다 검정력이 떨어짐
(오답: 만-휘트니 검정은 양측 모수 검정임 → 두 집단의 중위수 차이를 검정하는 비모수 검정임)
문54. 암 환자에 신약 효과 조사 결과에 대해 옳은 설명은?
초기 | 말기 | 합계 | ||||
생존 | 사망 | 생존 | 사망 | 생존 | 사망 | |
A약 | 16 | 4 | 4 | 16 | 20 | 20 |
B약 | 7 | 3 | 9 | 21 | 16 | 24 |
☞ A약 환자 생존률은 50%, B약 환자 생존률은 40%임
문55. 연관규칙 측도 중 하나로, A항목이 포함된 거래 중 A항목과 B항목이 동시에 포함된 거래의 비율을 나타내는 지표는?
☞ 신뢰도
문56. 요인 분석에 대한 설명은?
☞ 고차원의 데이터를 저차원으로 축소함
☞ 변수들의 상관관계를 기반으로 공통의 요인을 찾음
☞ 요인 분석 결과로 만들어진 새로운 변수들은 서로 대등함
(오답: 요인 회전 방법으로 VariMax, ScreeMax 등이 있음)
문57. 독립변수와 종속변수 척도에 따른 통계분석 방법에 대한 설명은?
☞ t-검정은 수치형 종속변수와 2개 범주의 독립변수를 사용하여 분석하는 방법임
☞ 로짓모형은 범주형 종속변수와 범주형 및 수치형 독립변수를 사용하여 분석하는 방법임
☞ 카이제곱검정은 범주형 종속변수와 범주형 독립변수를 사용하여 분석하는 방법임
(오답: 공분산 분석은 종속변수가 범주형, 독립변수가 연속형인 분석 방법임 → 종속변수가 연속형, 독립변수가 범주형)
문59. 의사결정나무 분석 결과에서 뿌리노드만 남는 이유는?
☞ 변별력 있는 변수가 없어 분리를 정지함
문60. 데이터 분석 결과 산출물은?
☞ 분석 모델
☞ 변수 정의서
☞ EDA 보고서
(오답: 알고리즘 보완 계획서)
[4과목. 빅데이터 결과 해석]
문61. ROC 곡선의 축을 구성하는 지표는?
☞ 민감도, 특이도
문62. 분석 결과 스토리텔링을 준비하는 과정에서 수행해야 하는 일은?
☞ 사용자 데이터 정의
☞ 사용자 시나리오 작성
☞ 스토리보드 기획
(오답: 스토리보드 도구 검증)
문63. 다음(그림)의 시각화 기법은?
☞ 히트맵
문64. 최종 모델을 평가하는 기준은?
☞ 평가 지표
☞ 예측의 정확성
☞ 분류의 정확성
(오답: 표본의 충분성)
문65. 분류모형 평가에 대한 설명은?
☞ 세로축은 재현율을 나타냄
☞ F1-score는 정밀도와 재현률의 조화평균 값
☞ AUC 값이 1에 가까울수록 분류 모델의 성능이 좋음
(오답: ROC 곡선으로 혼동행렬을 구할 수 있음 → 혼동행렬은 예측 값과 실제 값의 조합을 교차표로 나타낸 것)
문66. 분석모형 평가지표에 대한 공식으로 옳은 것은?
☞ MAE, MAPE, MSE, RMSE 공식
문67. 정규성 검정 기법은?
☞ Q-Q plot
☞ 샤피로-윌크 검정
☞ 콜모고로프-스미르노프 검정
(오답: 카이제곱 검정)
문68. 일반화 선형 모형(GLM)에 대한 설명은?
☞ 종속변수가 이항분포이면 연결함수로 logit함수를 사용함
☞ 종속변수의 정규성이 성립하지 않아도 사용할 수 있음
☞ 로지스틱 회귀가 대표적인 일반화 선형 모형임
문69. 비교시각화 기법은?
☞ 히트맵
☞ 스타차트
☞ 체르노프 페이스
(오답: 버블차트)
문70. 관계시각화 기법은?
☞ 산점도
☞ 히트맵
☞ 버블차트
(오답: 누적막대그래프)
문71. 민감도가 0.6, 정밀도가 0.4인 경우, F1-score 값은?
☞ 0.48
문72. 앙상블 모형에 대한 설명은?
☞ 랜덤포레스트가 대표적인 앙상블 모형임
☞ 배깅은 부트스트랩 샘플을 사용함
(오답: 부스팅은 정답에 더 높은 가중치를 부여하여 모델 성능을 올리는 방법임 → 오답에 높은 가중치를 부여함)
문73. 신경망 모형에서 발생하는 Gradient Vanishing 문제에 대한 설명은?
☞ 오차 역전파 과정에서 기울기가 감소하여 가중치가 업데이트되지 않는 현상임
문74. 앙상블 모형의 베이스 모형들을 독립적으로 최적화시키는 방법은?
☞ 학습 데이터셋을 다양화 함
☞ 하이퍼파라미터 최적화 기법을 사용함
☞ 학습 시간을 늘림
(오답: 평가 데이터셋을 다양화 함 → 성능 측정이며, 최적화 방법은 아님)
문75. 재현율 공식은?
☞ TP / (TP+FN)
문76. 분석 모형 해석에 대한 설명은?
☞ 예측 분석은 현재 분석결과를 통해 미래를 예측함
문77. 과적합을 해결하기 위한 방법은?
☞ 벌점화 회귀를 사용하여 모형에 제약조건을 추가함
문78. 과적합에 대한 설명은?
☞ 모형의 분산이 큼
☞ 일반화 성능이 낮은 상태임
☞ 모형이 과도하게 복잡한 상태임
(오답: 과적합은 비선형모형보다 선형모형에서 더 쉽게 발생함)
문79. 인포그래픽에 대한 설명은?
☞ 중요한 정보를 효과적으로 나타낼 수 있음
☞ 그래픽과 텍스트를 사용하여 이해하기 쉽게 만듬
☞ 디자인적 요소를 고려하여 만듬
(오답: 데이터의 패턴을 발견할 수 있음)
문80. 빅데이터 시각화 절차에 해당하는 요소는?
☞ 분석
☞ 표현
☞ 지시
(오답: 정제)