빅데이터 분석기사/필기 기출

[빅데이터분석기사/필기기출] 8회 기출문제(24년 4월)

✨️데이터분석가✨️ 2024. 11. 27. 01:09
728x90
728x90

[1과목. 빅데이터 분석기획]

문1. 빅데이터의 특징 5V에 대한 설명은?

☞ Variety 유형

☞ Volume 규모

Velocity 속도

 Value 가치

☞ Veracity 품질

 

문2. 빅데이터 분석 방법론의 데이터 분석 단계에서 수행하는 작업은?

☞ 분석용 데이터 준비

☞ 텍스트/탐색적 분석

☞ 모델링

모델 평가 및 검증

 

문3. 수집한 데이터를 저장/처리하고 분석할 수 있도록 포괄적으로 지원하는 것은?

☞ 빅데이터 플랫폼

 

문4. 가역/불가역 데이터에 대한 설명은?

☞ 가역 데이터는 원본 데이터가 변경되는 경우, 변경사항을 반영할 수 있음

☞ 가역 데이터는 생산된 데이터의 원본으로 환원이 가능한 데이터임

☞ 불가역 데이터는 생산된 데이터의 원본으로 환원이 불가능한 데이터임

(오답: 불가역 데이터는 원본 데이터가 변경되는 경우, 변경사항을 반영할 수 있음)

 

문5. 정량적 데이터와 정성적 데이터에 대한 설명은?

☞ 정량적 데이터는 양적 데이터 / 정성적 데이터는 질적 데이터임

☞ 정량적 데이터 중 계수 데이터는 범주형 데이터로 변환 가능함

(오답: 정성적 데이터 중 변수 데이터는 연속형 데이터로 변환 가능함)

 

문6. 데이터 변환에 대한 예는?

☞ 키 수치를 평균 0, 표준편차 1로 표준화

☞ YYYY년 MM월 DD일 → YYYY.MM.DD

☞ 20~30세는 청년, 40~50세는 중년 등으로 범주화

(오답: 1, 2, 3학년 값을 batch로 변환하여 데이터 분할 → 데이터 추출/분할)

 

문7. 개인정보보호 관련 법률에 대한 설명은?

☞ 개인정보 파기 시, 사유는 고지할 의무가 없음

☞ 개인정보보호위원회는 개인정보보호 업무를 독립적으로 처리하기 위한 기관임

☞ 데이터3법은 개인정보보호법, 정보통신망 이용촉진 및 정보보호 등에 관한 법률, 신용정보의 이용 및 보호에 관한 법률임

(오답: 익명정보 생성 시, 당사자의 동의를 구해야 함)

 

문8. 사용자에 대한 정보를 섞어 정보의 손실 없이 특정 개인에 대한 추측을 할 수 없도록 하는 비식별화 기법과 세부기술은?

☞ 총계처리 - 재배열

 

문9. 비식별화 기법에 대한 설명은?

☞ 비식별 조치 방법은 여러가지 기법을 단독 or 복합적으로 활용함

☞ 가명처리 시, 값을 대체할 때 규칙이 노출되어 역으로 쉽게 식별할 수 없도록 주의해야 함

☞ 총계처리 시, 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인 정보를 공개하는 것과 같음

(오답: 데이터 마스킹 수준이 높으면 데이터를 식별/예측하기 쉬워짐)

 

문10. 내부/외부 데이터에 대한 설명은?

☞ 내부 데이터는 개인정보일 경우 비식별 조치방안을 함께 고려해야 함

☞ 내부 데이터는 관리 권한이 다른 부서에 있는 경우 공유 가능 여부를 확인해야 함

☞ 외부 데이터는 수집 시 법률/제도상 제약이 없는지 검토해야 함

(오답: 외부 데이터는 보안을 신경쓰지 않고 자유롭게 사용해도 됨)

 

문11. 데이터 웨어하우스의 특징은?

☞ 통합성

☞ 시계열성

☞ 주제지향성

(오답: 휘발성 → 비휘발성)

 

문12. 분산 저장 방식은?

☞ GFS

HDFS

☞ Ceph

(오답: HBase → 하둡)

 

문13. Key-Value 데이터베이스에 대한 설명은?

☞ 쿼리의 질의 응답시간이 빠름

☞ 관계형 데이터베이스보다 확장성이 뛰어남

☞ 데이터를 키(Key)와 그에 해당하는 값(Value)의 쌍으로 저장하는 데이터 모델에 기반을 둠

(오답: 복잡한 쿼리 수행이 가능함)

 

문14. Cassandra, MongoDB를 포함하는 반정형/비정형 데이터 저장소는?

☞ NoSQL

 

문15. 비정형 데이터는?

☞ 음성 데이터

☞ 메시지 데이터

☞ 이미지 데이터

 

문16. 유의미한 변수를 선정하는 작업을 수행하는 단계는?

☞ 데이터 분석

 

문17. 하향식 문제 탐색 과정에 대한 설명은?

☞ 타당성 검토는 경제성, 기술적 타당성을 분석하는 단계임

☞ 문제 정의는 식별된 비즈니스 문제를 데이터 문제로 변환함

☞ 해결방안 탐색은 과제 정의 후, 해결 방안을 탐색함

(오답: 문제 탐색은 개인이 생각하는 문제를 나열함)

 

문18. 표준화란?

☞ 두 개의 샘플을 하나로 통합하는 작업

 

문19. 텍스트 마이닝에 대한 설명은?

☞ 사용하지 않거나 분석에 필요 없는 불용어를 제거해야 함

☞ Tokening은 예측해야 할 정보를 하나의 특정 기본 단위로 자르는 작업임

☞ Stemming은 동일한 뜻을 가진 형태가 다른 단어들을 같은 형태로 바꾸는 작업임

 

문20. 지도학습 모델 선정 시 고려요소는?

☞ 데이터

☞ 분석 목적

☞ 변수의 중요도

(오답: 자기상관성)

 

 


[2과목. 빅데이터 탐색]

문21. 주성분 분석표가 주어졌을 때, 제3주성분은 전체 분산의 몇 %까지 설명하는가?

Component PC1 PC2 PC3 PC4
Standard Deviation 1.8159 1.2207 0.67716 0.61622
Proportion of Variance 0.5496 0.2483 0.07642 0.06329

☞ 7.642% (PC3의 Proportion of Variance)

 

문22. 서열척도 변수들 간의 상관관계 측정 시 사용하는 값은?

☞ 스피어만 상관계수

 

문23. 점추정에 대한 설명은?

☞ 모집단의 모수를 추정하는 과정으로, 불편추정량은 추정량의 기댓값이 실제 모수와 같을 때를 의미함

 

문24. 오른쪽으로 꼬리가 긴 분포인 경우는?

☞ 최빈값 < 중앙값 < 평균값

 

문25. 표본 수가 많을수록 정규분포에 가까워지는 것은?

☞ 중심극한정리

 

문26. 파생변수에 대한 설명은?

☞ 시간 수집 시점에 따른 파생변수를 만들 수 있음

☞ 좋은 파생변수는 모델의 예측력을 크게 향상시킬 수 있음

☞ 연속형 변수는 구간을 추려서 특정 조건의 파생변수를 만들 수 있음

(오답: 독립변수와 종속변수의 교호작용을 이용하여 생성할 수 있음 → 독립변수 간에 교호작용)

 

문27. 주성분 분석(PCA)에 대한 설명은?

☞ 분산이 큰 변수의 방향을 확인함

 

문28. A국가는 100명 중 71명이 투표했다고 응답하였고, B국가는 200명 중 134명이 투표했다고 응답했다. A, B국가의 투표할 확률을 각각 Pa, Pb라고 할 때, Pa - Pb의 추정값은?

☞ 0.04 (=0.71 - 0.67)

 

문29. 특정 학생 점수가 각각 60, 70, 80점일 때 표본분산은?

☞ 100 (= ((60-70)² + (70-70)² + (80-70)²) / (3-1) )

 

문30. 기술통계량은?

☞ 평균

☞ 분산

☞ 최빈값

(오답: 이상값)

 

문31. 데이터가 얼마나 편중되어 있는지 확인할 수 있는 척도는?

☞ 왜도

 

문32. (A), (B), (C)에 맞는 단어는?

  실제 상황
H0 참 H0 거짓
통계적 결정 H0 채택 (A) (B)
H0 기각 (C) 옳은 결정

☞ (A) 옳은 결정, (B) 제2종 오류, (C) 제1종 오류

 

문33. 제2종 오류의 확률이란?

☞ 대립가설이 참일 때, 귀무가설을 기각하지 못하는 확률

 

문34. 정규분포로 변환하기 위한 통계적 기법으로 음수데이터에는 불가능하여 양수데이터만 가능한 방법은?

☞ Box-Cox

 

문35. 표본에 대한 설명은?

☞ 표본 수가 커지면 신뢰구간의 추정 정확도가 높아짐

☞ 표본 수가 커지면 표본 오차가 줄고, 신뢰성이 높아짐

☞ 표본 통계량의 기대값이 모집단 모수와 같으면 불편추정량이라고 함

(오답: n 개수와 상관없이 표본의 평균은 모집단의 평균과 같음)

 

문36. 모델의 편향과 분산 관계에 대한 설명은?

☞ 모델이 복잡하면 편향이 작아지고, 분산이 커짐

☞ 모델이 단순하면 편향이 커지고, 분산이 작아짐

 편향이 낮고 분산도 낮으면 좋은 모델임

☞ 편향과 분산은 상충관계임

 

문37. 차원축소로 할 수 있는 것은?

☞ 특징 추출

☞ 설명력 증가

☞ 노이즈 제거

(오답: 데이터 정제)

 

문38. 암 발생률과 소득의 상관관계를 다른 변수들을 제외하고 분석하고 싶을 때 사용하는 기법은?

☞ 편상관계수

 

문39. 다변량분산분석(ANOVA)에 대한 설명은?

☞ 독립변수 1개 이상, 종속변수 여러 개임

 

문40. 결측값 대치에 대한 설명은?

☞ 평균으로 대치하는 경우, 통계량의 표준오차가 과소추정 될 수 있음

☞ 단순확률대치법은 확률추출에 의해 전체 데이터 중 무작위 대치하는 방법임

☞ 최근접대치법은 결측치를 해당 데이터와 가장 유사한 값으로 대체하는 방법임

(오답: 자기회귀로 결측치를 대치하면 상관성이 낮아지고 분산이 커짐)

 

 


[3과목. 빅데이터 모델링]

문41. 다중공선성과 VIF에 대한 설명은?

☞ 다중회귀에서 독립변수 간에 선형회귀가 있으면 다중공선성이 있다고 할 수 있음

 

문42. 샘플링에 사용하는 기법은?

☞ Perfect Sampling

☞ Rejection Sampling

☞ Metropolis-Hastings Algorithm

(오답: EM Algorithm)

 

문43. 시퀀스투시퀀스에서 인코더를 통해 (A)가 만들어지고, 디코더가 (A)를 받아 출력시퀀스가 된다.

☞ (A) 커넥스트벡터

 

문44. 경사하강법에 대한 설명은?

☞ 모멘텀은 관성을 이용해 지역최소를 극복하고 전역최소를 찾아가는 방법임

 

문45. 매개변수와 초매개변수에 대한 설명은?

☞ 매개변수는 학습하며 갱신됨

☞ 은닉층의 수와 학습률은 초매개변수임

☞ 매개변수는 경사하강법으로 추정할 수 있음

(오답: 초매개변수는 학습이 진행되어도 바뀌지 않음)

 

문46. 서포트벡터머신(SVM)에 대한 설명은?

☞ 학습속도가 느림

☞ 과적합되는 경우가 적음

☞ 초매개변수의 최적화가 필요함

☞ 커널함수 여러 개가 존재할 수 있음

 

문47. '두 점 간 차를 제곱하여 합한 값의 양의 제곱근'은 어떤 거리인가?

☞ 유클리드 거리

 

문48. 부스팅에 대한 설명은?

☞ GBM은 가중치 업데이트에 경사하강법을 이용함

☞ 여러 개의 약한 학습기를 순차적으로 학습시키고 예측함

☞ LightGBM은 기존 트리 방식과 다르게 leaf 중심으로 분기함

(오답: XGBoost는 GMB을 개선한 방식이지만 GBM보다 속도가 느림)

 

문49. 의사결정나무에 대한 설명은?

☞ 설명력이 명확함

☞ 동질성이 커지는 방향으로 분기함

☞ 교호작용 효과 해석이 쉬움

 

문50. 인공신경망에서 마지막 은닉노드가 2개, 출력노드가 1개, 편향이 0.2일 때 출력값은? (은닉노드 값은 각각 0.2, 0.1, 가중치는 각각 0.4, 0.5임)

☞ 0.33 (= (0.2X0.4) + (0.1X0.5) + 0.2)

 

문51. 앙상블 모델에 대한 설명은?

☞ 여러 모델들을 결합하여, 과적합을 방지할 수 있음

☞ 대표적인 앙상블 기법들은 배깅, 부스팅, 스태킹이 있음

☞ 앙상블 모델은 여러 개의 모델을 조합하여 하나의 최종 결과를 도출함

(오답: 앙상블 모델이 단일 모델보다 항상 좋음)

 

문52. 앙상블 기법과 관련된 설명은?

☞ Voting - 투표를 통해 값을 결정함

☞ Bagging - 샘플을 여러번 뽑아 각 모델을 학습시켜 결과물을 집계함

☞ Stacking - 동일한 샘플로 다양한 유형의 모델을 학습함

(오답: Batch - 샘플 집합으로 주로 배깅에 활용됨)

 

문53. 신기술 적용 공정과 기존 공정간의 상대 위험도(RR)과 승산비(OR)은?

구분 불량 여부 합계
불량 정상
신기술 적용 공정 10 490 500
기존 공정 40 460 500
합계 50 950 1,000

☞ 상대 위험도: 0.25, 승산비: (0.02X0.92) / (0.08X0.98)

 

문54. 나이브 베이즈에 대한 설명은?

☞ 독립인 것을 가정함

☞ 별도의 학습과정을 거치지 않음

☞ 베이즈 룰을 사용해서 종속변수의 확률을 계산함

(오답: 나이브 베이즈는 사전/사후확률을 토대로 우도를 계산함)

 

문55. 결정계수에 대한 설명은?

☞ 결정계수=1은 종속변수의 변동이 모두 독립변수에 의해 설명된다는 것을 의미함

☞ 결정계수=0은 종속변수의 변동이 독립변수에 의해 설명되지 않는다는 것을 의미함

☞ 결정계수는 0~1 사이의 값임

 

문56. 비모수검정에 대한 설명은?

☞ 직관적으로 이해하기 쉬움

☞ 정규성 가정이 필요하지 않음

☞ 이상치에 대한 민감도가 모수검정보다 덜함

(오답: 모수검정보다 검정력이 높음)

 

문57. 과적합 방지 규제항 적용 시, 가중치 제곱합을 최소화하는 제약을 주는 기법은?

☞ Ridge

 

문58. 과적합 방지 방안은?

☞ 드롭아웃

☞ 배치 정규화

☞ 가중치 규제

(오답: 매개변수 증가 → 과적합 증가)

 

문59. 선형 회귀와 로지스틱 회귀에 대한 설명은?

☞ 종속변수가 범주형인 경우, 로지스틱 회귀를 사용함

☞ 선형/로지스틱 회귀 모두 MLE로 계수추정이 가능함

☞ 선형 회귀 계수를 최소제곱량(LSE)으로 추정하면, 불편추정량의 특성을 가짐

(오답: 선형/로지스틱 회귀 모두 잔차 정규성을 가정함)

 

문60. 모델의 배치에 대한 설명은?

☞ 배치 크기가 작으면, 훈련속도가 빨라짐

☞ 배치 크기가 크면, 메모리 문제가 발생함

☞ 배치 크기가 작으면, 노이즈가 생기며 모델의 학습에 악영향을 줌

(오답: 배치 크기는 훈련속도에 영향을 주지만 성능에는 영향이 없음)

 

 


[4과목. 빅데이터 결과 해석]

문61. 척도와 예시가 맞는 것은?

☞ 비율 척도 - 나이

☞ 명목 척도 - 성별

☞ 등간 척도 - 온도

(오답: 서열 척도 - 매출액)

 

문62. 불균형 데이터에 대한 설명은?

☞ 최적화된 모델의 학습이 어려울 수 있음

☞ 학습 시 클래스의 개수보다 클래스 간의 샘플 수 차이에 영향을 받음

☞ 불균형 데이터 집합에서는 정확도보다는 정밀도를 평가지표로 설정해야 함

(오답: 소수의 클래스는 언더샘플링을 적용해 해결함 → 오버샘플링)

 

문63. 결측값을 대치하는 방법 중 회귀대치법에 대한 설명은?

☞ 대체할 결측값을 예측하기 위해 회귀분석을 사용함

☞ 데이터의 구조와 패턴을 반영하여 결측값을 대체할 수 있음

☞ 결측값이 없는 다른 변수를 이용하여 결측값이 있는 변수를 예측함

(오답: 독립변수와 종속변수 간의 관계가 약할 경우에도 적용 가능함 → 예측값의 신뢰성이 저하됨)

 

문64. ROC 곡선에 대한 설명은?

☞ FPR 값에 따른 TPR 값의 그래프임

☞ FPR 값이 작아도 TPR 값이 클 수 있음

☞ 무작위인 경우, FPR과 TPR은 같은 곳으로 수렴함

(오답: AUC 값이 작을수록 좋은 모델임)

 

문65. 실제 Positive인 대상 중, Positive로 정확히 예측할 확률을 뜻하는 것은?

☞ 재현율(Recall)

 

문66. 혼동행렬을 활용하여 평가지표를 계산한 결과는?

구분 예측 값
Positive Negative
실제 값 Positive 48 12
Negative 2 38

☞ 정확도 0.86 (= (TP+TN) / (TP+TN+FP+FN) = (48+38) / (48+38+2+12))

 

문67. 시계열 자료에서 예측 정확도를 측정하는 지표에 대한 설명은?

☞ MAE는 실제값과 예측값 차이를 절대값을 평균한 것

☞ MSE는 실제값과 예측값 차이를 제곱합을 평균한 것

☞ MPE는 상대적 예측 오차를 계산하는데 사용함

 MAPE는 실제값과 예측값의 차이를 실제값으로 나눈 값

 

문68. (A), (B), (C), (D)의 값은?

요인 제곱합 자유도 평균제곱 F값
회귀 18.667 2 (C) (D)
잔차 2.78 (B) 0.31  
합계 (A) 11    

☞ (A) 21.447 / (B) 9 / (C) 9.334 / (D) 30.11

 

문69. 바이너리 변수에 대한 설명은?

☞ 두 가지 값만 가질 수 있는 변수임

☞ 성별, 출석상태 등이 바이너리 변수임

☞ 로지스틱 회귀와 같은 분류 모델에서 사용됨

(오답: 원-핫 인코딩은 연속형 데이터를 이진 형식으로 변환함 → 범주형)

 

문70. k-fold 교차검증에 대한 설명은?

☞ 학습과 검증을 k번 반복해서 수행함

☞ k개로 나누어진 데이터 셋은 각각 한 번씩만 검증용으로 사용함

☞ k-1개 데이터 셋은 학습용, 1개 데이터 셋은 검증용으로 사용함

(오답: 폴드의 크기가 작을수록 모델 성능이 떨어짐)

 

문71. 교차검증에 대한 설명은?

☞ 교차검증은 모델의 훈련시간이 증가함

☞ k-폴드 교차검증은 k번의 학습과 검증을 진행함

☞ 학습 데이터에서의 평균제곱오차 값은 대개 검증 데이터에서의 평균제곱오차 값보다 작음

(오답: 시계열 데이터에서 학습/검증데이터는 같은 시간대에 있어야 함 → 학습 데이터가 먼저여야 함)

 

문72. (A)는 지역별 코로나 발생률, (B)는 월별 코로나 발생률이며, (A)와 (B)에 적합한 인포그래픽은?

☞ (A) 지도 인포그래픽, (B) 타임라인 인포그래픽

 

문73. 기초통계량과 그래프로 확인하는 것은?

☞ 결측치

☞ 이상치

☞ 데이터 분포

(오답: 통계적 유의성)

 

문74. 분석 결과 활용 계획에 대한 설명은?

☞ 내/외부 교육 훈련 방안도 포함함

☞ 분석 결과에 대한 지속적인 모니터링이 필요함

☞ 분석 결과 활용 효과 측정을 위한 성과지표도 마련되어야 함

(오답: 분석 결과 활용 계획은 분석 모형 리모델링 후 수립함)

 

문75. 데이터 시각화의 순서는?

☞ 데이터 획득 → 데이터 구조화 → 데이터 마이닝 → 시각화모델 선택 → 시각화 표현

 

문76. 지역별 매출과 수익을 시각화하기에 적절한 방법은?

☞ 매출: 코로플레스맵, 수익: 버블차트

 

문77. 국회의원 선거에서 지역 면적이 아니라, 지역구 당선 국회의원 수에 따라 시각화 할 때 적합한 시각화 도구는?

☞ 카토그램

 

문78. 모자이크 플롯에 대한 설명은?

☞ 변수에 속한 값의 분포를 시각적으로 표현함

☞ 두 개 이상의 범주형 데이터의 상관관계를 나타냄

☞ 열의 너비는 가로 축에 표시된 관측치 수에 비례함

 

문79. 박스 플롯에 대한 설명은?

☞ IQR은 3사분위수 - 1사분위수로 계산함

☞ 박스의 중앙에 가로선은 중앙값을 의미함

☞ 박스의 맨 위 가로선은 최대값, 맨 아래 가로선은 최소값을 의미함 

 

문80. F1-score 계산식은?

☞ F1-score = 2 X (Precision X Recall) / (Precision + Recall)

 

 

728x90
728x90