[빅데이터분석기사/필기기출] 8회 기출문제(24년 4월)
[1과목. 빅데이터 분석기획]
문1. 빅데이터의 특징 5V에 대한 설명은?
☞ Variety 유형
☞ Volume 규모
☞ Velocity 속도
☞ Value 가치
☞ Veracity 품질
문2. 빅데이터 분석 방법론의 데이터 분석 단계에서 수행하는 작업은?
☞ 분석용 데이터 준비
☞ 텍스트/탐색적 분석
☞ 모델링
☞ 모델 평가 및 검증
문3. 수집한 데이터를 저장/처리하고 분석할 수 있도록 포괄적으로 지원하는 것은?
☞ 빅데이터 플랫폼
문4. 가역/불가역 데이터에 대한 설명은?
☞ 가역 데이터는 원본 데이터가 변경되는 경우, 변경사항을 반영할 수 있음
☞ 가역 데이터는 생산된 데이터의 원본으로 환원이 가능한 데이터임
☞ 불가역 데이터는 생산된 데이터의 원본으로 환원이 불가능한 데이터임
(오답: 불가역 데이터는 원본 데이터가 변경되는 경우, 변경사항을 반영할 수 있음)
문5. 정량적 데이터와 정성적 데이터에 대한 설명은?
☞ 정량적 데이터는 양적 데이터 / 정성적 데이터는 질적 데이터임
☞ 정량적 데이터 중 계수 데이터는 범주형 데이터로 변환 가능함
(오답: 정성적 데이터 중 변수 데이터는 연속형 데이터로 변환 가능함)
문6. 데이터 변환에 대한 예는?
☞ 키 수치를 평균 0, 표준편차 1로 표준화
☞ YYYY년 MM월 DD일 → YYYY.MM.DD
☞ 20~30세는 청년, 40~50세는 중년 등으로 범주화
(오답: 1, 2, 3학년 값을 batch로 변환하여 데이터 분할 → 데이터 추출/분할)
문7. 개인정보보호 관련 법률에 대한 설명은?
☞ 개인정보 파기 시, 사유는 고지할 의무가 없음
☞ 개인정보보호위원회는 개인정보보호 업무를 독립적으로 처리하기 위한 기관임
☞ 데이터3법은 개인정보보호법, 정보통신망 이용촉진 및 정보보호 등에 관한 법률, 신용정보의 이용 및 보호에 관한 법률임
(오답: 익명정보 생성 시, 당사자의 동의를 구해야 함)
문8. 사용자에 대한 정보를 섞어 정보의 손실 없이 특정 개인에 대한 추측을 할 수 없도록 하는 비식별화 기법과 세부기술은?
☞ 총계처리 - 재배열
문9. 비식별화 기법에 대한 설명은?
☞ 비식별 조치 방법은 여러가지 기법을 단독 or 복합적으로 활용함
☞ 가명처리 시, 값을 대체할 때 규칙이 노출되어 역으로 쉽게 식별할 수 없도록 주의해야 함
☞ 총계처리 시, 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인 정보를 공개하는 것과 같음
(오답: 데이터 마스킹 수준이 높으면 데이터를 식별/예측하기 쉬워짐)
문10. 내부/외부 데이터에 대한 설명은?
☞ 내부 데이터는 개인정보일 경우 비식별 조치방안을 함께 고려해야 함
☞ 내부 데이터는 관리 권한이 다른 부서에 있는 경우 공유 가능 여부를 확인해야 함
☞ 외부 데이터는 수집 시 법률/제도상 제약이 없는지 검토해야 함
(오답: 외부 데이터는 보안을 신경쓰지 않고 자유롭게 사용해도 됨)
문11. 데이터 웨어하우스의 특징은?
☞ 통합성
☞ 시계열성
☞ 주제지향성
(오답: 휘발성 → 비휘발성)
문12. 분산 저장 방식은?
☞ GFS
☞ HDFS
☞ Ceph
(오답: HBase → 하둡)
문13. Key-Value 데이터베이스에 대한 설명은?
☞ 쿼리의 질의 응답시간이 빠름
☞ 관계형 데이터베이스보다 확장성이 뛰어남
☞ 데이터를 키(Key)와 그에 해당하는 값(Value)의 쌍으로 저장하는 데이터 모델에 기반을 둠
(오답: 복잡한 쿼리 수행이 가능함)
문14. Cassandra, MongoDB를 포함하는 반정형/비정형 데이터 저장소는?
☞ NoSQL
문15. 비정형 데이터는?
☞ 음성 데이터
☞ 메시지 데이터
☞ 이미지 데이터
문16. 유의미한 변수를 선정하는 작업을 수행하는 단계는?
☞ 데이터 분석
문17. 하향식 문제 탐색 과정에 대한 설명은?
☞ 타당성 검토는 경제성, 기술적 타당성을 분석하는 단계임
☞ 문제 정의는 식별된 비즈니스 문제를 데이터 문제로 변환함
☞ 해결방안 탐색은 과제 정의 후, 해결 방안을 탐색함
(오답: 문제 탐색은 개인이 생각하는 문제를 나열함)
문18. 표준화란?
☞ 두 개의 샘플을 하나로 통합하는 작업
문19. 텍스트 마이닝에 대한 설명은?
☞ 사용하지 않거나 분석에 필요 없는 불용어를 제거해야 함
☞ Tokening은 예측해야 할 정보를 하나의 특정 기본 단위로 자르는 작업임
☞ Stemming은 동일한 뜻을 가진 형태가 다른 단어들을 같은 형태로 바꾸는 작업임
문20. 지도학습 모델 선정 시 고려요소는?
☞ 데이터
☞ 분석 목적
☞ 변수의 중요도
(오답: 자기상관성)
[2과목. 빅데이터 탐색]
문21. 주성분 분석표가 주어졌을 때, 제3주성분은 전체 분산의 몇 %까지 설명하는가?
Component | PC1 | PC2 | PC3 | PC4 |
Standard Deviation | 1.8159 | 1.2207 | 0.67716 | 0.61622 |
Proportion of Variance | 0.5496 | 0.2483 | 0.07642 | 0.06329 |
☞ 7.642% (PC3의 Proportion of Variance)
문22. 서열척도 변수들 간의 상관관계 측정 시 사용하는 값은?
☞ 스피어만 상관계수
문23. 점추정에 대한 설명은?
☞ 모집단의 모수를 추정하는 과정으로, 불편추정량은 추정량의 기댓값이 실제 모수와 같을 때를 의미함
문24. 오른쪽으로 꼬리가 긴 분포인 경우는?
☞ 최빈값 < 중앙값 < 평균값
문25. 표본 수가 많을수록 정규분포에 가까워지는 것은?
☞ 중심극한정리
문26. 파생변수에 대한 설명은?
☞ 시간 수집 시점에 따른 파생변수를 만들 수 있음
☞ 좋은 파생변수는 모델의 예측력을 크게 향상시킬 수 있음
☞ 연속형 변수는 구간을 추려서 특정 조건의 파생변수를 만들 수 있음
(오답: 독립변수와 종속변수의 교호작용을 이용하여 생성할 수 있음 → 독립변수 간에 교호작용)
문27. 주성분 분석(PCA)에 대한 설명은?
☞ 분산이 큰 변수의 방향을 확인함
문28. A국가는 100명 중 71명이 투표했다고 응답하였고, B국가는 200명 중 134명이 투표했다고 응답했다. A, B국가의 투표할 확률을 각각 Pa, Pb라고 할 때, Pa - Pb의 추정값은?
☞ 0.04 (=0.71 - 0.67)
문29. 특정 학생 점수가 각각 60, 70, 80점일 때 표본분산은?
☞ 100 (= ((60-70)² + (70-70)² + (80-70)²) / (3-1) )
문30. 기술통계량은?
☞ 평균
☞ 분산
☞ 최빈값
(오답: 이상값)
문31. 데이터가 얼마나 편중되어 있는지 확인할 수 있는 척도는?
☞ 왜도
문32. (A), (B), (C)에 맞는 단어는?
실제 상황 | |||
H0 참 | H0 거짓 | ||
통계적 결정 | H0 채택 | (A) | (B) |
H0 기각 | (C) | 옳은 결정 |
☞ (A) 옳은 결정, (B) 제2종 오류, (C) 제1종 오류
문33. 제2종 오류의 확률이란?
☞ 대립가설이 참일 때, 귀무가설을 기각하지 못하는 확률
문34. 정규분포로 변환하기 위한 통계적 기법으로 음수데이터에는 불가능하여 양수데이터만 가능한 방법은?
☞ Box-Cox
문35. 표본에 대한 설명은?
☞ 표본 수가 커지면 신뢰구간의 추정 정확도가 높아짐
☞ 표본 수가 커지면 표본 오차가 줄고, 신뢰성이 높아짐
☞ 표본 통계량의 기대값이 모집단 모수와 같으면 불편추정량이라고 함
(오답: n 개수와 상관없이 표본의 평균은 모집단의 평균과 같음)
문36. 모델의 편향과 분산 관계에 대한 설명은?
☞ 모델이 복잡하면 편향이 작아지고, 분산이 커짐
☞ 모델이 단순하면 편향이 커지고, 분산이 작아짐
☞ 편향이 낮고 분산도 낮으면 좋은 모델임
☞ 편향과 분산은 상충관계임
문37. 차원축소로 할 수 있는 것은?
☞ 특징 추출
☞ 설명력 증가
☞ 노이즈 제거
(오답: 데이터 정제)
문38. 암 발생률과 소득의 상관관계를 다른 변수들을 제외하고 분석하고 싶을 때 사용하는 기법은?
☞ 편상관계수
문39. 다변량분산분석(ANOVA)에 대한 설명은?
☞ 독립변수 1개 이상, 종속변수 여러 개임
문40. 결측값 대치에 대한 설명은?
☞ 평균으로 대치하는 경우, 통계량의 표준오차가 과소추정 될 수 있음
☞ 단순확률대치법은 확률추출에 의해 전체 데이터 중 무작위 대치하는 방법임
☞ 최근접대치법은 결측치를 해당 데이터와 가장 유사한 값으로 대체하는 방법임
(오답: 자기회귀로 결측치를 대치하면 상관성이 낮아지고 분산이 커짐)
[3과목. 빅데이터 모델링]
문41. 다중공선성과 VIF에 대한 설명은?
☞ 다중회귀에서 독립변수 간에 선형회귀가 있으면 다중공선성이 있다고 할 수 있음
문42. 샘플링에 사용하는 기법은?
☞ Perfect Sampling
☞ Rejection Sampling
☞ Metropolis-Hastings Algorithm
(오답: EM Algorithm)
문43. 시퀀스투시퀀스에서 인코더를 통해 (A)가 만들어지고, 디코더가 (A)를 받아 출력시퀀스가 된다.
☞ (A) 커넥스트벡터
문44. 경사하강법에 대한 설명은?
☞ 모멘텀은 관성을 이용해 지역최소를 극복하고 전역최소를 찾아가는 방법임
문45. 매개변수와 초매개변수에 대한 설명은?
☞ 매개변수는 학습하며 갱신됨
☞ 은닉층의 수와 학습률은 초매개변수임
☞ 매개변수는 경사하강법으로 추정할 수 있음
(오답: 초매개변수는 학습이 진행되어도 바뀌지 않음)
문46. 서포트벡터머신(SVM)에 대한 설명은?
☞ 학습속도가 느림
☞ 과적합되는 경우가 적음
☞ 초매개변수의 최적화가 필요함
☞ 커널함수 여러 개가 존재할 수 있음
문47. '두 점 간 차를 제곱하여 합한 값의 양의 제곱근'은 어떤 거리인가?
☞ 유클리드 거리
문48. 부스팅에 대한 설명은?
☞ GBM은 가중치 업데이트에 경사하강법을 이용함
☞ 여러 개의 약한 학습기를 순차적으로 학습시키고 예측함
☞ LightGBM은 기존 트리 방식과 다르게 leaf 중심으로 분기함
(오답: XGBoost는 GMB을 개선한 방식이지만 GBM보다 속도가 느림)
문49. 의사결정나무에 대한 설명은?
☞ 설명력이 명확함
☞ 동질성이 커지는 방향으로 분기함
☞ 교호작용 효과 해석이 쉬움
문50. 인공신경망에서 마지막 은닉노드가 2개, 출력노드가 1개, 편향이 0.2일 때 출력값은? (은닉노드 값은 각각 0.2, 0.1, 가중치는 각각 0.4, 0.5임)
☞ 0.33 (= (0.2X0.4) + (0.1X0.5) + 0.2)
문51. 앙상블 모델에 대한 설명은?
☞ 여러 모델들을 결합하여, 과적합을 방지할 수 있음
☞ 대표적인 앙상블 기법들은 배깅, 부스팅, 스태킹이 있음
☞ 앙상블 모델은 여러 개의 모델을 조합하여 하나의 최종 결과를 도출함
(오답: 앙상블 모델이 단일 모델보다 항상 좋음)
문52. 앙상블 기법과 관련된 설명은?
☞ Voting - 투표를 통해 값을 결정함
☞ Bagging - 샘플을 여러번 뽑아 각 모델을 학습시켜 결과물을 집계함
☞ Stacking - 동일한 샘플로 다양한 유형의 모델을 학습함
(오답: Batch - 샘플 집합으로 주로 배깅에 활용됨)
문53. 신기술 적용 공정과 기존 공정간의 상대 위험도(RR)과 승산비(OR)은?
구분 | 불량 여부 | 합계 | |
불량 | 정상 | ||
신기술 적용 공정 | 10 | 490 | 500 |
기존 공정 | 40 | 460 | 500 |
합계 | 50 | 950 | 1,000 |
☞ 상대 위험도: 0.25, 승산비: (0.02X0.92) / (0.08X0.98)
문54. 나이브 베이즈에 대한 설명은?
☞ 독립인 것을 가정함
☞ 별도의 학습과정을 거치지 않음
☞ 베이즈 룰을 사용해서 종속변수의 확률을 계산함
(오답: 나이브 베이즈는 사전/사후확률을 토대로 우도를 계산함)
문55. 결정계수에 대한 설명은?
☞ 결정계수=1은 종속변수의 변동이 모두 독립변수에 의해 설명된다는 것을 의미함
☞ 결정계수=0은 종속변수의 변동이 독립변수에 의해 설명되지 않는다는 것을 의미함
☞ 결정계수는 0~1 사이의 값임
문56. 비모수검정에 대한 설명은?
☞ 직관적으로 이해하기 쉬움
☞ 정규성 가정이 필요하지 않음
☞ 이상치에 대한 민감도가 모수검정보다 덜함
(오답: 모수검정보다 검정력이 높음)
문57. 과적합 방지 규제항 적용 시, 가중치 제곱합을 최소화하는 제약을 주는 기법은?
☞ Ridge
문58. 과적합 방지 방안은?
☞ 드롭아웃
☞ 배치 정규화
☞ 가중치 규제
(오답: 매개변수 증가 → 과적합 증가)
문59. 선형 회귀와 로지스틱 회귀에 대한 설명은?
☞ 종속변수가 범주형인 경우, 로지스틱 회귀를 사용함
☞ 선형/로지스틱 회귀 모두 MLE로 계수추정이 가능함
☞ 선형 회귀 계수를 최소제곱량(LSE)으로 추정하면, 불편추정량의 특성을 가짐
(오답: 선형/로지스틱 회귀 모두 잔차 정규성을 가정함)
문60. 모델의 배치에 대한 설명은?
☞ 배치 크기가 작으면, 훈련속도가 빨라짐
☞ 배치 크기가 크면, 메모리 문제가 발생함
☞ 배치 크기가 작으면, 노이즈가 생기며 모델의 학습에 악영향을 줌
(오답: 배치 크기는 훈련속도에 영향을 주지만 성능에는 영향이 없음)
[4과목. 빅데이터 결과 해석]
문61. 척도와 예시가 맞는 것은?
☞ 비율 척도 - 나이
☞ 명목 척도 - 성별
☞ 등간 척도 - 온도
(오답: 서열 척도 - 매출액)
문62. 불균형 데이터에 대한 설명은?
☞ 최적화된 모델의 학습이 어려울 수 있음
☞ 학습 시 클래스의 개수보다 클래스 간의 샘플 수 차이에 영향을 받음
☞ 불균형 데이터 집합에서는 정확도보다는 정밀도를 평가지표로 설정해야 함
(오답: 소수의 클래스는 언더샘플링을 적용해 해결함 → 오버샘플링)
문63. 결측값을 대치하는 방법 중 회귀대치법에 대한 설명은?
☞ 대체할 결측값을 예측하기 위해 회귀분석을 사용함
☞ 데이터의 구조와 패턴을 반영하여 결측값을 대체할 수 있음
☞ 결측값이 없는 다른 변수를 이용하여 결측값이 있는 변수를 예측함
(오답: 독립변수와 종속변수 간의 관계가 약할 경우에도 적용 가능함 → 예측값의 신뢰성이 저하됨)
문64. ROC 곡선에 대한 설명은?
☞ FPR 값에 따른 TPR 값의 그래프임
☞ FPR 값이 작아도 TPR 값이 클 수 있음
☞ 무작위인 경우, FPR과 TPR은 같은 곳으로 수렴함
(오답: AUC 값이 작을수록 좋은 모델임)
문65. 실제 Positive인 대상 중, Positive로 정확히 예측할 확률을 뜻하는 것은?
☞ 재현율(Recall)
문66. 혼동행렬을 활용하여 평가지표를 계산한 결과는?
구분 | 예측 값 | ||
Positive | Negative | ||
실제 값 | Positive | 48 | 12 |
Negative | 2 | 38 |
☞ 정확도 0.86 (= (TP+TN) / (TP+TN+FP+FN) = (48+38) / (48+38+2+12))
문67. 시계열 자료에서 예측 정확도를 측정하는 지표에 대한 설명은?
☞ MAE는 실제값과 예측값 차이를 절대값을 평균한 것
☞ MSE는 실제값과 예측값 차이를 제곱합을 평균한 것
☞ MPE는 상대적 예측 오차를 계산하는데 사용함
☞ MAPE는 실제값과 예측값의 차이를 실제값으로 나눈 값
문68. (A), (B), (C), (D)의 값은?
요인 | 제곱합 | 자유도 | 평균제곱 | F값 |
회귀 | 18.667 | 2 | (C) | (D) |
잔차 | 2.78 | (B) | 0.31 | |
합계 | (A) | 11 |
☞ (A) 21.447 / (B) 9 / (C) 9.334 / (D) 30.11
문69. 바이너리 변수에 대한 설명은?
☞ 두 가지 값만 가질 수 있는 변수임
☞ 성별, 출석상태 등이 바이너리 변수임
☞ 로지스틱 회귀와 같은 분류 모델에서 사용됨
(오답: 원-핫 인코딩은 연속형 데이터를 이진 형식으로 변환함 → 범주형)
문70. k-fold 교차검증에 대한 설명은?
☞ 학습과 검증을 k번 반복해서 수행함
☞ k개로 나누어진 데이터 셋은 각각 한 번씩만 검증용으로 사용함
☞ k-1개 데이터 셋은 학습용, 1개 데이터 셋은 검증용으로 사용함
(오답: 폴드의 크기가 작을수록 모델 성능이 떨어짐)
문71. 교차검증에 대한 설명은?
☞ 교차검증은 모델의 훈련시간이 증가함
☞ k-폴드 교차검증은 k번의 학습과 검증을 진행함
☞ 학습 데이터에서의 평균제곱오차 값은 대개 검증 데이터에서의 평균제곱오차 값보다 작음
(오답: 시계열 데이터에서 학습/검증데이터는 같은 시간대에 있어야 함 → 학습 데이터가 먼저여야 함)
문72. (A)는 지역별 코로나 발생률, (B)는 월별 코로나 발생률이며, (A)와 (B)에 적합한 인포그래픽은?
☞ (A) 지도 인포그래픽, (B) 타임라인 인포그래픽
문73. 기초통계량과 그래프로 확인하는 것은?
☞ 결측치
☞ 이상치
☞ 데이터 분포
(오답: 통계적 유의성)
문74. 분석 결과 활용 계획에 대한 설명은?
☞ 내/외부 교육 훈련 방안도 포함함
☞ 분석 결과에 대한 지속적인 모니터링이 필요함
☞ 분석 결과 활용 효과 측정을 위한 성과지표도 마련되어야 함
(오답: 분석 결과 활용 계획은 분석 모형 리모델링 후 수립함)
문75. 데이터 시각화의 순서는?
☞ 데이터 획득 → 데이터 구조화 → 데이터 마이닝 → 시각화모델 선택 → 시각화 표현
문76. 지역별 매출과 수익을 시각화하기에 적절한 방법은?
☞ 매출: 코로플레스맵, 수익: 버블차트
문77. 국회의원 선거에서 지역 면적이 아니라, 지역구 당선 국회의원 수에 따라 시각화 할 때 적합한 시각화 도구는?
☞ 카토그램
문78. 모자이크 플롯에 대한 설명은?
☞ 변수에 속한 값의 분포를 시각적으로 표현함
☞ 두 개 이상의 범주형 데이터의 상관관계를 나타냄
☞ 열의 너비는 가로 축에 표시된 관측치 수에 비례함
문79. 박스 플롯에 대한 설명은?
☞ IQR은 3사분위수 - 1사분위수로 계산함
☞ 박스의 중앙에 가로선은 중앙값을 의미함
☞ 박스의 맨 위 가로선은 최대값, 맨 아래 가로선은 최소값을 의미함
문80. F1-score 계산식은?
☞ F1-score = 2 X (Precision X Recall) / (Precision + Recall)