[빅데이터분석기사/필기기출] 5회 기출문제(22년 10월)

빅데이터 분석기사/필기 기출

[빅데이터분석기사/필기기출] 5회 기출문제(22년 10월)

✨️데이터분석가✨️ 2024. 10. 3. 22:09

728x90

[1과목. 빅데이터 분석기획]

문1. 빅데이터 분석 기획 과정의 WBS를 작성하는 단계는?

☞ 프로젝트 계획 수립

문2. CRISP-DM 방법론의 프로세스는?

☞ 비즈니스 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개

문3. 인공지능, 머신러닝, 딥러닝의 상호관계는?

☞ 인공지능 > 머신러닝 > 딥러닝

문4. 관계형 데이터베이스 기반 구조를 하둡 기반으로 전환하고, 이를 모니터링하는 직무는?

☞ 데이터 엔지니어

문5. 개인정보 비식별화 조치에 대한 설명은?

☞ 총계 처리는 개별 데이터의 값을 데이터의 총합으로 대체하는 것을 의미

☞ 가명 처리는 개인정보 중 주요 식별정보를 다른 값으로 대체하는 것을 의미

☞ 데이터 마스킹은 개인정보 중 주요 식별정보의 전체 또는 부분적으로 대체하는 것을 의미

(오답: 데이터 범주화는 ~~개인정보 중 주요 식별정보를 삭제하는 것~~을 의미 → 해당 그룹의 대표 값 or 구간 값으로 대체하는 것을 의미)

문6. 데이터 품질진단 절차에서 데이터를 측정하고 분석하여 수치를 산출하는 단계는?

☞ 데이터 품질측정

문7. 개인정보보호법 관련 설명은?

☞ 데이터 처리 사실 및 목적 등 공개를 통해 투명성을 확보해야 함

☞ 데이터 3법은 개인정보보호법, 정보통신망법, 신용정보법의 개정안임

☞ 개인정보가 재식별될 경우 즉시 파기하거나 비식별화 조치를 추가로 해야 함

(오답: 데이터 3법 개정으로 가명처리 후 활용 시 ~~정보주체의 동의가 필요함~~ → 가명처리 후 정보주체 동의 없이 활용 가능함)

문8. 관계형 데이터처럼 테이블 형태로 구조화되어 있지 않지만, 메타데이터의 특성을 갖고 있는 데이터는?

☞ 반정형 데이터

문9. 총계 처리 기법의 단점은?

☞ 집계 처리되어 정밀한 분석이 어려움

☞ 재배열 방법의 경우 개인의 특성을 파악하기 어려움

☞ 데이터 양이 적을 경우 데이터 결합 과정에서 개인정보 예측이 가능함

(오답: 총계 처리는 ~~비식별화가 불가능함~~ → 개인정보 비식별화 기법임)

문10. 자료 수집 방법에 대한 설명은?

☞ FGI는 전문가 설문조사 후, 온/오프라인 면담을 수행함

☞ 브레인스토밍은 참여자들이 자유롭게 생각을 나열하고 아이디어를 제시하는 방식

☞ 스캠퍼는 창의적 문결 해결 기법으로, 기존 아이디어를 다양한 방법으로 발전시키는 것

문11. 데이터 수집 기술에 대한 설명은?

☞ 스쿱 : 관계형 데이터베이스 시스템(DBMS)에서 하둡 파일 시스템(HDFS)으로 커넥터를 이용하여 데이터를 수집할 수 있는 기술

☞ 크롤링 : 웹 사이트에서 SNS, 뉴스 등 웹 문서 및 콘텐츠를 수집할 수 있는 기술

☞ API : 시스템 간 연동을 통해 실시간으로 데이터를 수집할 수 있는 기술

(FTP : 여러 서버로부터 로그 파일 등을 실시간으로 수집할 수 있는 기술 → 시스템 간에 파일을 공유하기 위한 기술)

문12. 특정 분야에서 학습된 신경망을 다른 분야의 신경망 학습에 활용하는 방법은?

☞ 전이학습(Transfer Learning)

문13. 데이터 분석 방법론 프로세스에서 데이터를 이해하고 수집하는 단계는?

☞ 데이터 준비

문14. 데이터 및 자원 할당 관리, 빅데이터 어플리케이션 실행을 위한 서비스를 제공하는 빅데이터 플랫폼 계층 구조는?

☞ 플랫폼 계층

문15. 병렬 DBMS의 특성은?

☞ 다수의 마이크로프로세서를 동시에 사용함

☞ 데이터 처리가 빠름

☞ 시스템 용량 확장이 쉬움

(오답: 데이터 ~~중복값이 증가함~~ → 데이터를 중복하여 저장하지 않음)

문16. 빅데이터 분석에 대한 설명은?

☞ 개인 프라이버시 침해 위험이 있음

☞ 신제품의 판매량을 예측할 수 있음

☞ 공공부문에서 비용을 절감할 수 있음

(오답: 항상 경제적으로 이익을 얻을 수 있음)

문17. 여러 시스템에서 필요한 원천 데이터를 추출하고 변환하여 적재하는 기술은?

☞ FTP

문18. 예측을 위한 분석 방법은?

☞ 예측 분석

문19. 분석기획에서 비즈니스 계획 수립 절차는?

☞ 비즈니스 이해 및 범위 설정

☞ 프로젝트 정의 및 계획 수립

☞ 프로젝트 위험 계획 수립

(오답: 모델 발전 계획 수립 → 평가 및 전개 단계)

문20. 데이터 저장 기술은?

☞ RDB

☞ DFS

☞ NoSQL

(오답: 텍스트 마이닝)

[2과목. 빅데이터 탐색]

문21. 단위 시간 안에 발생한 특정 사건의 수를 표현하는 이산확률 분포는?

☞ 포아송 분포

문22. 모평균의 95% 신뢰구간을 구하는 식에서 Z값은?

☞ 1.96

문23. 임의로 추출된 20명에게 다이어트 약을 투여한 후, 약의 전후 효과를 비교하려고 한다. 약 투여 후, 체중이 줄었는지 검정하기 위한 분포는?

☞ 대응표본, 단측검정

문24. 공분산에 대한 설명은?

☞ X, Y가 독립이면, Cov(X,Y)=0임

☞ Cov(X,Y)=0이 아니면, 변수 간의 상관관계를 가짐

☞ Cov(X,Y)>0 이면, X값이 상승할 때 Y값도 상승하는 경향을 보임

(오답: Cov(X,Y)=0이면 X, Y는 항상 상호 독립임 → 선형관계가 없음을 의미함)

25. 클래스 불균형 데이터를 처리하기 위한 방안은?

☞ 가중치 균형방법

☞ 언더샘플링

☞ 오버샘플링

(오답: 정규화)

문26. 모집단의 표준편차를 알지 못하는 경우, 평균 차이에 대한 검정을 수행하는 분포는?

☞ 자유도 N-1, t분포

문27. 우하향하는 산점도의 피어슨 상관계수는?

☞ -0.9

문28. 분포가 한쪽으로 기울어진 변수를 분석하기 쉽게 변환하고자 할 때, 적절한 변수 변환 방법은?

☞ 로그 변환

문30. 데이터 양의 차이가 클 경우에 대한 전처리 기법은?

☞ 클래스 불균형 처리

문31. 표본분포에 대한 설명은?

☞ 표본 크기가 커질수록 표본 평균의 분산은 0에 가까워짐

☞ 중심극한정리는 모집단 분포와 상관없이 적용됨

☞ 모분산을 모르는 경우 정규분포 대신 t-분포를 사용함

(오답: 표본 크기와 관계없이 ~~표본평균의 기댓값은 항상 모평균과 동일함~~ → 표본 크기가 커질수록 표본평균은 모평균에 수렴함)

문32. 인코딩 기법에 대한 설명은?

☞ 레이블 인코딩은 각 범주를 숫자에 대치시킴

☞ 원 핫 인코딩을 적용하면 sparse한 데이터가 됨

☞ 원 핫 인코딩을 적용할 때보다 바이너리 인코딩을 적용할 때 모델 학습속도가 더 빠름

(오답: 타깃 인코딩은 종속변수 값들의 ~~표준편차를 활용함~~ → 범주형 특성을 인코딩하기에 표준편차에는 사용하지 않음)

문33. 데이터 변환 기술에 대한 설명은?

☞ 집계 : 데이터를 요약하거나 그룹화하여 통계적 정보를 얻음

☞ 일반화 : 데이터의 일반적인 특성/패턴을 추출하는 기술

☞ 정규화 : 데이터를 일정 범위로 조정하여 상대적인 크기 차이를 제거하고 데이터를 표준화하는 기술

(오답: 평활화 : ~~분산과 표준편차 등을 이용하여 데이터 특성을 파악함~~ → 데이터의 노이즈를 제거하여 데이터의 추세/패턴을 부드럽게 만드는 기술)

문34. 데이터 탐색에 대한 설명은?

☞ 히스토그램은 도수분포표를 이용하여 표본의 자료분표를 시각화 함

☞ 파이차트의 원의 면적은 상대도수를 이용함

☞ 산점도로 이상치를 확인할 수 있음

(오답: 박스플롯 제1사분위는 ~~75백분율~~ 데이터를 의미함 → 25백분율)

문35. 정규분포를 다루는 확률분포에서 모집단으로부터 표본의 크기가 4개인 확률변수를 추출한다. X₁, X₂, X₃, X₄는?

☞ 표본은 정규분포를 따름

☞ 표본표준편차는 모집단의 표준편차를 2로 나눈 값임

☞ 표본크기를 늘리면 표본평균은 모집단 평균에 가까워짐

(오답: ~~X₂, X₃는 서로 종속임~~ → 알 수 없음)

문36. 데이터 변수 척도에 대한 설명은?

☞ 회귀분석을 위해 명목형 척도를 더미변수화 함

☞ 크기(소/중/대) 구분은 순서형 척도임

☞ 데이터 값이 정수인 경우 수치형 척도에 해당함

(오답: 연속형 척도와 ~~범주형 척도~~는 평균/표준편차와 같은 기술 통계량을 구할 수 있음)

문37. 점으로 값을 표현한 시각화 기법은?

☞ 산점도

문38. 일부 응답 값이 누락되어 대치하는 경우, 대푯값으로 적절한 것은?

☞ 중앙값

문39. 확률분포에 대한 설명은?

☞ 이산확률분포에는 이항분포, 포아송분포가 있음

☞ 확률질량함수는 이산확률변수의 확률분포를 나타내는 함수임

☞ 확률밀도함수의 면적이 그 구간에 해당하는 확률값임

(오답: 연속확률분포에는 ~~초기하분포~~, 지수분포가 있음)

문40. 상자 수염 그림과 이상치에 대한 설명은?

☞ 상자 범위는 Q1~Q3임

☞ IQR의 1.5배 이내 데이터는 이상치가 아님

☞ 상자 수염 그림에서 중앙값을 확인할 수 있음

(오답: 수염보다 바깥쪽에 존재하는 모든 데이터들은 이상치임 → 모두는 아님)

[3과목. 빅데이터 모델링]

문41. 분석 모형 선정에 대한 설명은?

☞ 데이터 특성에 따라 적용 가능한 분석모형이 다름

☞ 비지도 학습을 통해 데이터 패턴 도출이 가능함

☞ 소셜 네트워크 분석으로 사회적 관계를 시각화할 수 있음

(오답: 비용민감함수는 ~~주요인자 분석에 사용함~~ → 불균형 데이터에 사용함)

문42. 시간에 따른 일별 기온 변화를 표현할 수 있는 기법은?

☞ 시계열 분석

문43. 드롭아웃 효과와 동일한 효과를 가지는 기법은?

☞ 데이터 증강

문44. k-fold 교차 검증에 대한 설명은?

☞ 데이터를 k개로 나눔

☞ 데이터 양이 충분하지 않을 때 사용되는 편임

☞ 평가 데이터를 제외한 나머지 데이터는 검증에 최소 한 번 사용됨

(오답: 훈련, 검증, 평가 데이터 셋을 2:3:5 비율로 구성함 → 홀드아웃 교차 검증)

문45. 인공신경망 모형에서 과적합을 방지할 수 있는 방법은?

☞ 정규화

☞ 드롭아웃

☞ 조기 종료

(오답: 가지치기)

문46. 덴드로그램 그래프에서 h=4 기준으로 군집 분리 시, 묶이는 군집의 개수는?

☞ 2개

문47. 텍스트 마이닝 기법으로 단어를 벡터화하는 변환 기법은?

☞ TF-IDF

☞ One-hot encoding

☞ Word Embedding

(오답: Pos-tagging)

문48. 회귀 분석 모형에서 변수를 선택하는 방법은?

☞ 전진 선택법

☞ 후진 제거법

☞ 단계적 선택법

(오답: 차수 선택법)

문49. 모형 선정에 대한 설명은?

☞ 나이브 베이즈 모델은 범주형 독립변수 및 종속변수를 사용함

☞ 일반적으로 설명력이 좋은 모형은 예측력이 떨어짐

☞ SOM은 비지도 학습에 속함

(오답: 단순한 모형보다 복잡한 모형이 ~~무조건 좋음~~)

문50. 로지스틱 회귀에 관한 설명은?

☞ y값이 0~1 사이 값을 가지고 이진 분류함

문51. 시계열 모형 기법인 ARIMA 모형에 대한 설명은?

☞ 정상성을 보이는 시계열은 추세나 계절성이 없음

☞ AR모델은 변수의 과거 값을 이용함

☞ MA모델은 과거 예측 오차를 이용함

(오답: 백색 잡음은 ~~서로 독립적이지 않음~~ → 정상 시계열로 서로 독립적이고 동일한 분포를 따름)

문52. 주성분 분석에 대한 설명은?

☞ 주성분끼리는 서로 직교함

☞ 주성분 분석은 고차원 데이터를 저차원으로 변환함

☞ 주성분은 기존 변수들의 선형결합으로 이루어져 있음

(오답: 주성분 분석을 하기 위해서는 ~~변수의 수가 표본의 수보다 항상 커야 함~~)

문53. 비모수 검정에 대한 설명은?

☞ 윌콕슨 순위합 검정은 중위수의 차이를 검정함

☞ 크루스칼-왈리스 검정은 분산분석에서 정규성 가정이 만족되지 않을 때 사용함

☞ 일반적으로 모수 검정보다 검정력이 떨어짐

(오답: 만-휘트니 검정은 ~~양측 모수 검정임~~ → 두 집단의 중위수 차이를 검정하는 비모수 검정임)

문54. 암 환자에 신약 효과 조사 결과에 대해 옳은 설명은?

	초기		말기		합계
	생존	사망	생존	사망	생존	사망
A약	16	4	4	16	20	20
B약	7	3	9	21	16	24

☞ A약 환자 생존률은 50%, B약 환자 생존률은 40%임

문55. 연관규칙 측도 중 하나로, A항목이 포함된 거래 중 A항목과 B항목이 동시에 포함된 거래의 비율을 나타내는 지표는?

☞ 신뢰도

문56. 요인 분석에 대한 설명은?

☞ 고차원의 데이터를 저차원으로 축소함

☞ 변수들의 상관관계를 기반으로 공통의 요인을 찾음

☞ 요인 분석 결과로 만들어진 새로운 변수들은 서로 대등함

(오답: 요인 회전 방법으로 VariMax, ~~ScreeMax~~ 등이 있음)

문57. 독립변수와 종속변수 척도에 따른 통계분석 방법에 대한 설명은?

☞ t-검정은 수치형 종속변수와 2개 범주의 독립변수를 사용하여 분석하는 방법임

☞ 로짓모형은 범주형 종속변수와 범주형 및 수치형 독립변수를 사용하여 분석하는 방법임

☞ 카이제곱검정은 범주형 종속변수와 범주형 독립변수를 사용하여 분석하는 방법임

(오답: 공분산 분석은 ~~종속변수가 범주형~~, ~~독립변수가 연속형~~인 분석 방법임 → 종속변수가 연속형, 독립변수가 범주형)

문59. 의사결정나무 분석 결과에서 뿌리노드만 남는 이유는?

☞ 변별력 있는 변수가 없어 분리를 정지함

문60. 데이터 분석 결과 산출물은?

☞ 분석 모델

☞ 변수 정의서

☞ EDA 보고서

(오답: 알고리즘 보완 계획서)

[4과목. 빅데이터 결과 해석]

문61. ROC 곡선의 축을 구성하는 지표는?

☞ 민감도, 특이도

문62. 분석 결과 스토리텔링을 준비하는 과정에서 수행해야 하는 일은?

☞ 사용자 데이터 정의

☞ 사용자 시나리오 작성

☞ 스토리보드 기획

(오답: 스토리보드 도구 검증)

문63. 다음(그림)의 시각화 기법은?

☞ 히트맵

문64. 최종 모델을 평가하는 기준은?

☞ 평가 지표

☞ 예측의 정확성

☞ 분류의 정확성

(오답: 표본의 충분성)

문65. 분류모형 평가에 대한 설명은?

☞ 세로축은 재현율을 나타냄

☞ F1-score는 정밀도와 재현률의 조화평균 값

☞ AUC 값이 1에 가까울수록 분류 모델의 성능이 좋음

(오답: ~~ROC 곡선으로 혼동행렬을 구할 수 있음~~ → 혼동행렬은 예측 값과 실제 값의 조합을 교차표로 나타낸 것)

문66. 분석모형 평가지표에 대한 공식으로 옳은 것은?

☞ MAE, MAPE, MSE, RMSE 공식

문67. 정규성 검정 기법은?

☞ Q-Q plot

☞ 샤피로-윌크 검정

☞ 콜모고로프-스미르노프 검정

(오답: 카이제곱 검정)

문68. 일반화 선형 모형(GLM)에 대한 설명은?

☞ 종속변수가 이항분포이면 연결함수로 logit함수를 사용함

☞ 종속변수의 정규성이 성립하지 않아도 사용할 수 있음

☞ 로지스틱 회귀가 대표적인 일반화 선형 모형임

문69. 비교시각화 기법은?

☞ 히트맵

☞ 스타차트

☞ 체르노프 페이스

(오답: 버블차트)

문70. 관계시각화 기법은?

☞ 산점도

☞ 히트맵

☞ 버블차트

(오답: 누적막대그래프)

문71. 민감도가 0.6, 정밀도가 0.4인 경우, F1-score 값은?

☞ 0.48

문72. 앙상블 모형에 대한 설명은?

☞ 랜덤포레스트가 대표적인 앙상블 모형임

☞ 배깅은 부트스트랩 샘플을 사용함

(오답: 부스팅은 ~~정답에 더 높은 가중치를 부여~~하여 모델 성능을 올리는 방법임 → 오답에 높은 가중치를 부여함)

문73. 신경망 모형에서 발생하는 Gradient Vanishing 문제에 대한 설명은?

☞ 오차 역전파 과정에서 기울기가 감소하여 가중치가 업데이트되지 않는 현상임

문74. 앙상블 모형의 베이스 모형들을 독립적으로 최적화시키는 방법은?

☞ 학습 데이터셋을 다양화 함

☞ 하이퍼파라미터 최적화 기법을 사용함

☞ 학습 시간을 늘림

(오답: ~~평가 데이터셋을 다양화 함~~ → 성능 측정이며, 최적화 방법은 아님)

문75. 재현율 공식은?

☞ TP / (TP+FN)

문76. 분석 모형 해석에 대한 설명은?

☞ 예측 분석은 현재 분석결과를 통해 미래를 예측함

문77. 과적합을 해결하기 위한 방법은?

☞ 벌점화 회귀를 사용하여 모형에 제약조건을 추가함

문78. 과적합에 대한 설명은?

☞ 모형의 분산이 큼

☞ 일반화 성능이 낮은 상태임

☞ 모형이 과도하게 복잡한 상태임

(오답: 과적합은 비선형모형보다 ~~선형모형에서 더 쉽게 발생함~~)

문79. 인포그래픽에 대한 설명은?

☞ 중요한 정보를 효과적으로 나타낼 수 있음

☞ 그래픽과 텍스트를 사용하여 이해하기 쉽게 만듬

☞ 디자인적 요소를 고려하여 만듬

(오답: 데이터의 패턴을 발견할 수 있음)

문80. 빅데이터 시각화 절차에 해당하는 요소는?

☞ 분석

☞ 표현

☞ 지시

(오답: 정제)

728x90

저작자표시 비영리 변경금지