빅데이터 분석기사/필기 기출

[빅데이터분석기사/필기기출] 4회 기출문제(22년 4월)

✨️데이터분석가✨️ 2024. 11. 24. 23:45
728x90
728x90

[1과목. 빅데이터 분석기획]

문1. HDFS에 대한 설명은?

☞ GFS 기반으로 만듬

 

문2. 인공지능학습에 대한 설명은?

☞ 지도학습은 데이터의 정답지가 주어진 상태로 학습하는 것

☞ 강화학습은 특정 조건에서 최적의 행동을 선택하도록 하는 학습방법임

강인공지능은 인간의 지성을 컴퓨터 정보처리능력으로 구현한 시스템

(오답: 훌륭한 알고리즘을 보유했다면 학습을 생략해도 됨

 

문3. 분산 파일 시스템에 대한 설명은?

여러 컴퓨터를 하나의 서버 환경처럼 연결하여 데이터를 저장, 처리하는 시스템

 

문4. 분석 로드맵을 수립할 때 고려해야 할 항목은?

☞ 비지니스 성과 및 ROI

☞ 시급성 및 중요도

☞ 실현 가능성

(오답: 분석모델 활용 방안)

 

문5. DIKW 피라미드 요소 중 지혜에 해당하는 것은?

☞ 초밥도 A마트가 B마트보다 저렴할 것임

 

문6. 빅데이터 분석 기획 절차는?

☞ 비즈니스 이해 및 범위 설정 → 프로젝트 정의 → 프로젝트 수행 계획 수립 → 프로젝트 위험관리 계획 수립 

 

문7. 개인정보 비식별화에 대한 설명은?

☞ 개인을 알아볼 수 없도록 하는 조치임

☞ 비식별 조치 후에도 모니터링과 기술적 보호 조치를 수행해야 함

☞ 비식별 정보는 사전에 개인정보 해당 여부에 대하여 검토하고, 개인정보가 아닌 것은 활용 가능하도록 함

(오답: 제3자 제공이 가능하며, 불특정 다수에 대한 공개가 가능함)

 

문8. 개인정보 비식별화 기술에 대한 설명은?

☞ 범주화는 데이터의 값을 범주의 값으로 변환하여 값을 변경하는 기술

☞ 가명처리는 개인 식별에 중요한 데이터를 식별할 수 없는 다른 값으로 변경하는 기술

☞ 총계처리는 데이터의 총합 값으로 처리하여 개별 데이터의 값을 보이지 않도록 하는 기술

(오답: 데이터 마스킹은 개인 식별에 중요한 데이터 값을 삭제하는 것 → * 등 기호를 이용하여 값을 가리는 것)

 

문9. 빅데이터 처리 플랫폼 특징 중 3V에 해당하는 것은?

☞ 규모

☞ 속도

☞ 다양성

(오답: 가치 → 5V에 해당)

 

문10. 분석과제 난이도를 하향 조정하여 우선순위를 조정할 때, 고려사항은?

☞ 업무 내재화 범위

☞ 분석과제 수행 범위

☞ 분석 데이터의 적용 수준

(오답: 투자비용)

 

문11. 인메모리 기반의 데이터 처리 오픈소스 플랫폼은?

☞ 아파치 스파크


문12. 빅데이터 분석 모델링 과정에서 수행하는 업무는?

☞ 데이터 셋 분할

☞ 데이터 모델링

☞ 분석 모델 적용 및 운영 방안 수립

(오답: 프로젝트 성과 관리 및 평가 보고 → 평가 및 활용 단계)


문13. 정형 데이터와 비정형 데이터에 대한 설명은?

☞ 동영상, 오디오 데이터는 비정형 데이터임

형태소는 비정형 데이터를 분석하기 위한 단어임

☞ 반정형 데이터는 정형과 반정형 성질을 모두 갖고 있음

(오답: JSON과 XML은 비정형 데이터임 → 반정형 데이터)


문14. 고품질 데이터의 특성은?

☞ 정확성

☞ 완전성

☞ 적시성

☞ 일관성


문15. 시스템의 전방에 위치하여 클라이언트로부터 다양한 서비스를 처리하고, 내부 시스템으로 전달하는 미들웨어는?

☞ API 게이트웨이


문16. 데이터 3법은?

☞ 개인정보보호법

☞ 신용정보의 이용 및 보호에 관한 법률

☞ 정보통신망 이용 촉진 및 정보보호 등에 관한 법률

(오답: 정보통신산업 보호법)


문17. 공공데이터 포털에서 제공하는 파일 형식은?

CSV

☞ XML

☞ JSON

(오답: SQL) 


문18. 원시 데이터셋 형태로 저장하는 단일한 데이터 저장소는?

☞ 데이터레이크


문19. 데이터에 노이즈를 추가하여 개인정보보호와 데이터분석을 모두 진행할 수 있는 개인정보보호기법은?

☞ 개인정보 차등보호


문20. 빅데이터 저장기술은?

☞ NoSQL

 

 


[2과목. 빅데이터 탐색]

문21. 축구 선수의 경우, 일반적인 선수와 탑플레이어 선수의 연봉의 차이가 매우 크다. 축구 선수의 연봉 데이터를 활용하여 팀별 연봉 대푯값을 산출한다고 할 때 의미 있는 통계량은?

☞ 중앙값

(오답: 평균, 범위, 분산)

 

문22. 가설검정에서 제1종 오류를 범할 확률은?

☞ 유의수준


문23. 시공간 데이터는?

☞ 지도 데이터

☞ 격자 데이터

☞ 패턴 데이터

(오답: 패널 데이터)

 

문24. 이상값을 찾는 방법에 대한 설명은?

☞ 박스플롯과 산점도 등에서 멀리 떨어진 값을 찾음

☞ 표준정규분포에서 표준편차가 3 이상인 값을 찾음

☞ 도메인 지식에서 이론적이나 물리적으로 맞지 않는 값을 찾음

(오답: 가설 검정의 노이즈 값을 찾음)


문25. 상관관계에 대한 설명은?

☞ 상관계수가 0이면, 상관성이 낮음

☞ 상관계수는 -1 ~ 1 범위에 해당함

☞ 산점도로 상관관계를 알 수 있음

(오답: 결정계수의 제곱임 → )

 

문26. 평균이 150, 분산이 16인 분포 X에 대해 Y = (X-150) / 4 로 변환하면, Y는 어떤 분포를 따르는가?

☞ N(0, 1), 표준정규분포


문27. 박스플롯에서 3Q보다 항상 작은 값을 갖는 것은?

☞ 중앙값

 

문28. 주성분 분석에 대한 설명은?

☞ 기존 변수들을 선형 결합하여 새로운 변수를 만듬

☞ 주성분들이 설명하는 분산이 최대한 커지도록 함

☞ 데이터가 이산형, 연속형인 경우에 사용함

(오답: 주성분 분석의 결과와 해석을 직관적으로 이해할 수 있음)


문29. A에서 주어진 점들까지 맨해튼 거리를 구할 때 두번째로 먼 곳까지의 거리는? A(1,1) B(1,2) C(2,2) D(4,1)

☞ 2, C

 

문30. 제품A, B, C의 생산률은 각각 50%, 30%, 20%이며, 불량률은 1%, 2%, 3%이다. 품질검사에서 불량이 나온 경우, 해당 제품이 A제품일 확률은?

☞ 29.41% (= (50%X1%) / (50%X1% + 30%X2% + 20%X3%) )  

 

문31. 비정형 텍스트 데이터 전처리 기법은?

Stemming

Tokenizing

Pos tagging

(오답: Streaming → 실시간 스트리밍 데이터 수집 기법)

 

문32. 항목 집합의 지지도를 산출하여 발생 빈도와 최소지지도를 기반으로 거래의 연관성을 밝히는 알고즘은?

☞ Apriori, 연관규칙분석

 

문33. 오른쪽으로 긴꼬리인 경우, 통계량의 관계는?

☞ 왜도 > 0, 최빈값 < 중위수 < 평균

 

문34. 포아송분포에 대한 설명은?

☞ 기댓값과 분산이 동일한 확률분포임

☞ 단위시간 안에 사건이 몇 번 발생하는 것을 표현하는 이산확률분포임

☞ 특정 시간대에 은행창구에 도착한 고객수, 책 한페이지당 오탈자수 등이 포아송의 예임

(오답: 이항분포가 n이 커지고, 성공확률 p가 1에 가까우면 포아송분포가 됨 → p가 0에 가까우면)

 

문35. 평균 x 바, 표준편차  σ인 확률변수에 대하여, X₁ + X₂의 표준편차는?

√2σ

 

문36. 머신러닝 수행 시 학습 데이터가 불균형한 경우, 해결할 수 있는 방법에 대한 설명은?

 불균형 상태 그대로 머신러닝 모델로 예측하면 과적합 문제가 발생할 수 있음

☞ 과소표집기법은 유의미한 데이터만 남길 수 있다는 장점이 있지만, 정보가 유실된다는 단점이 있음

☞ 과대표집기법은 정보의 손실을 막을 수 있지만, 새로운 테스트 데이터가 추가되면 모델의 결과가 나빠짐

(오답: 가중치가 높은 클래스를 더 예측하려고 하여 정확도는 낮아지고 분포가 작은 클래스의 재현율은 높아짐)

 

문37. 표준화와 자료분포에 대한 설명은?

☞ 표준화는 단위가 다른 자료를 평균=0, 분산과 표준편차=1이 되도록 변환하는 과정

 

문38. 변동계수에 대한 설명은?

☞ 상대표준편차라고도 함

단위가 다른 두 데이터 비교 시, 단위에 영향을 받지 않는 변동성 척도임

☞ 평균과 표준편차를 나누어서 서로 다른 단위의 산포도를 비교할 수 있음

(오답: 표준편차와 분산을 사용하여 두 가지 자료의 산포도를 측정할 수 있음)

 

문39. 초기하 분포에 대한 설명은?

☞ 이산형 확률분포를 따름

☞ 복원 추출하는 경우, 이항분포를 사용해야 함

☞ 비복원 추출로 인해 각 시행의 성공확률은 일정하지 않음

(오답: 각 시행의 성공확률은 상호 독립적임 → 비복원 추출이라 다음 시행의 성공 여부에 영향을 줌)

 

문40. Boxplot으로 확인할 수 있는 통계량은?

☞ 중앙값

 

☞ 이상값

사분위수범위

(오답: 분산)

 

 


[3과목. 빅데이터 모델링]

문41. 텍스트 마이닝에서 문장 2개 이상의 단어로 분리하는 방법은?

☞ N-gram

 

문42. 선형회귀 모형의 가정에 대한 특성은?

 선형성

☞ 독립성

☞ 정규성

☞ 등분산성

 

문43. 비지도학습이란 타겟 변수의 (A)이 안 된 모형을 의미하며, 대표적인 모형 예시는 (B)가 있다.

☞ (A) 라벨링, (B) 인공신경망모형

 

문44. 앙상블 모형에 대한 설명은?

☞ 배깅은 여러 개의 부트스트랩 자료를 생성하고 각 부트스트랩 자료에 예측모형을 만든 후 결합하여 최종 모형을 만드는 방법임

부스팅은 예측력이 약한 모형을 순차적으로 결합하여 점점 예측력이 강한 모형으로 변화시키는 앙상블 방법임

☞ 랜덤포레스트는 의사결정나무를 여러 개 결합하여 분석하는 모형으로 배깅에 속함

☞ 앙상블 모형은 훈련을 한 뒤 예측에 사용하므로 지도학습에 해당함

 

문45. 군집분석의 척도로 2차원 공간에서의 피타고라스 정리로 측정하며, L2 거리로 불리는 것은?

☞ 유클리드 거리

 

문46. 단층 인공신경망에서 수행할 수 있는 논리 문제는?

☞ OR

☞ AND

☞ NOR

(오답: XOR)

 

문47. 오토인코더 모형에 대한 설명은?

☞ 신경망을 활용한 비지도 학습 기법임

☞ 입력 특성 간 상관관계를 학습하여 출력을 재구성함

☞ 인코드 입력수와 디코드 출력수는 동일함

(오답: 입력층의 뉴런 수는 은닉층의 뉴런 수보다 항상 작음)

 

문48. 의사결정나무에 대한 설명은?

☞ 두 범주 간의 차이가 없으면 분리를 멈춤

☞ 과적합 방지를 위해 가지치기 작업을 수행함

☞ 지니 지수, 엔트로피 지수 등으로 분리규칙을 설정함

(오답: 이산형 목표변수에만 적용 가능함 → 연속형도 가능)

 

문49. ROC Carve에 대한 설명은?

☞ 분류분석 결과의 성과분석을 위한 그림임

☞ AUC는 ROC 곡선 아래 면적을 의미함

☞ AUC가 클수록 좋은 분류모형의 결과를 보임

(오답: ROC 곡선의 y축은 1-특이도, x축은 재현율임 → y축 재현율, x축 1-특이도)


문50. 시계열 자료의 성분이 아닌 것은?

☞ 계절 성분

☞ 추세 성분

☞ 불규칙 성분

(오답: 주기 성분)

 

문51. 혼동행렬로부터 계산 가능한 평가지표는?

☞ 정확도

 재현율

정밀도 F1 점수

 

문52. 불균형 데이터를 평가하기 위한 분류모형의 지표는?

☞ 민감도

☞ 특이도

☞ ROC곡선

(오답: 정확도)

 

문53. 비모수통계 검정법은?

 부호검정

크루스칼-왈리스 검정

☞ 윌콕슨 부호순위 검정

(오답: 맥니마 검정)

 

문54. 로지스틱 회귀분석에서 임의의 사건 A가 발생하지 않을 확률 대비 일어날 확률의 비율을 뜻하는 것은?

☞ 승산(odds)

 

문55. 계층적 군집분석에 대한 설명은?

☞ 덴드로그램으로 표현할 수 있음

☞ 군집 수를 사전에 설정하지 않아도 됨

☞ N개의 군집으로 시작하여 군집 간 거리를 기준으로 가장 가까운 군집끼리 병합함

(오답: K 평균 군집 분석 → 비계층적 군집분석)

 

문56. 데이터를 학습/검증/시험 세트 세 가지로 분할하는 방법은?

☞ Holdout

 

문57. k-fold 교차검증을 수행하는 절차에 알맞은 말은?

① 학습 데이터를 k개의 fold로 나눈다.

② k-1개 fold는 (A), 나머지 한 개는 (B)에 사용하여 모형 성능을 계산한다.

③ 교차 검증 결과 (C)개의 성능 평균값을 얻는다.

☞ (A) 학습, (B) 검증, (C) k

 

문58. 과대적합을 방지하기 위한 기법은?

☞ 드롭아웃

☞ L2 규제

☞ 배치 정규화

(오답: 활성화함수 적용)

 

문59. (A)는 모집단에 대한 사전정보가 없는 경우 주어진 관측값 사이의 유사성을 이용하여 전체를 몇 개의 집단으로 그룹화하여 각 집단의 성격을 파악하는 (B) 기반의 분석법이다. 이 분석방법은 군집 내 응집도와 군집 간 분리도를 최대화하도록 군집을 형성해야 한다. 군집분석의 대표적인 방법 중 하나인 (C)는 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법으로 분할적/병합적 방법이 있다. 이 때 군집의 결과는 (D)을 통해서 시각화하여 보여줄 수 있다.

☞ 군집분석, 비지도학습, 계층적군집분석, 덴드로그램

 

문60. 인공신경망 모형에 대한 설명은?

☞ 두뇌 신경세포인 뉴런을 기본으로 한 학습 기법임

 딥러닝의 기본구조로 DNN은 은닉층을 2개 이상 가짐

 다층 퍼셉트론의 문제점들을 해결하기 위해 등장한 딥러닝임

(오답: 낮은 복잡성으로 모델 해석이 용이함)

 

 


[4과목. 빅데이터 결과 해석]

문61. 시공간 시각화 기법은?

☞ 카토그램

 

문62. 초매개변수의 최적화 기법은?

☞ 랜덤 탐색 

☞ 그리드 탐색

☞ 베이지안 최적화

(오답: 경사하강법, 모멘텀, AdaGard, RMSProp, Adam → 매개변수 최적화 기법)

 

문63. 히트맵에 대한 설명은?

☞ 칸의 색상을 이용해 값의 크기를 나타냄

☞ 행은 관측치, 열은 변수를 나타냄

(오답: 색이 진할수록 값이 작고, 연할수록 값이 )

 

문64. 분류모형 평가지표에 대한 설명은?

☞ 특이도는 실제 거짓인 데이터 중 모형이 거짓으로 예측한 데이터의 비율임

☞ F1 스코어는 정밀도와 재현율의 조화평균으로 데이터가 불균형일 경우 사용하는 지표임

☞ 참긍정률은 실제 참인 데이터 중 모형이 참으로 예측한 데이터의 비율이며 민감도와 같음

(오답: 거짓긍정률은 실제 거짓인 데이터 중 모형이 참으로 예측한 데이터의 비율이며, 1-민감도와 같음 → 1-특이도)

 

문65. 시각화 기법 중 용도가 다른 것은?

☞ 등치지역도

☞ 도트 플롯 맵

☞ 버블 플롯 맵

(오답: 히트맵 → 비교 시각화 기법)

 

문66. K-Fold 교차검증에 대한 설명은?

 과대적합 방지를 위해 사용함

 전체 데이터를 k개의 서브셋으로 분리함

 k번 반복한 후, 평균을 내어 모델의 성능을 평가함

(오답: 하나의 데이터는 훈련데이터로 k번 사용됨 → k-1번)

 

문67. 분석모형 진단에 대한 설명은?

☞ 선형회귀 모형은 선형성, 독립성, 등분산성, 정규성 가정하에서 분석함

☞ 등분산성은 잔차의 분산이 일정해야 함을 말하며, Q-Q Plot으로 시각적으로 판단할 수 있음

☞ 분석모형 진단은 분석에 사용된 데이터가 분석모형의 가정을 제대로 만족하고 있는지 확인하는 절차임

(오답: 독립성은 독립변수들 간에 독립성이 없어야 함을 말하며, 잔차 산점도를 통해서 시각적으로 판단할 수 있음)

 

문68. 혼동행렬 표에 대한 설명은?

구분 예측 값
불량 정상
실제 값 불량 10 5
정상 10 75

☞ 정확도는 0.85, 특이도는 0.88, 참긍정률은 0.67임

 

문69. 회귀모형 평가 지표에 대한 설명은?

☞ RMSE의 값은 0에 가까울수록 좋음

 회귀모형의 실제값과 예측값의 차이를 잔차라고 함

결정계수가 1에 가까울수록 회귀식이 실제값을 정확히 표현함을 의미함

(오답: 설명변수의 개수가 많아질수록 결정계수는 작아짐

 

문70. 과대적합과 과소적합에 대한 설명은?

☞ 과대적합일 경우, 일반화 성능이 좋지 않음

☞ 과대적합일 경우, 모형의 복잡도는 상대적으로 높음

☞ 과소적합일 경우, 학습데이터에서는 성능이 낮게 나타남

(오답: 과소적합일 경우, 검증데이터에서는 성능이 높게 나타남 )

 

문71. 매개변수 최적화에 대한 설명은?

☞ 분석 모형의 결괏값과 실제값의 차이를 손실함수로 표현함

☞ 분석 모형 학습은 학습 데이터로부터 손실함수의 값을 가장 작게 만드는 매개변수의 최적 값을 찾아가는 과정임

☞ 매개변수 최적화 기법은 경사하강법, 모멘텀, AdaGard, RMSProp 등의 방식이 있음

(오답: 매개변수 최적화를 통해 하이퍼파리미터가 튜닝됨)

 

문72. 가중치 매개변수에 대한 손실함수의 기울기를 통해 최적값을 구하는 방법이다. 이 때 최적값은 학습 데이터 전체를 대상으로 이루어진다. 전체 데이터에 대해서 업데이트가 이루어지므로 연산횟수가 적고 부드럽게 수렴하는 특성이 있지만, 학습 시간이 오래 걸리고 로컬 최적화에 빠질 위험이 있는 것은?

☞ 배치 경사하강법

 

문73. ROC 그래프에 대한 설명은?

☞ 민감도가 1, 특이도가 0인 점을 지남

 민감도가 0, 특이도가 1인 점을 지남

☞ 가장 이상적인 그래프는 민감도가 1, 특이도가 1인 점을 지남

(오답: 특이도가 증가하는 그래프임)

 

문74. 상관성 분석에 대한 설명은?

☞ 수치적 데이터의 상관성 분석 방법으로는 피어슨 상관계수가 있음

☞ 순서적 데이터의 상관성 분석 방법으로는 스피어만 순위상관계수가 있음

☞ 세 개 이상의 변수 사이의 상관성 분석은 다변량 상관분석임

(오답: 명목적 데이터의 상관성 분석은 T-검정을 이용함 → 카이제곱검정)

 

문75. 분류모형 평가에서 복원추출 방식을 사용하여 훈련용 데이터 선정을 충분히 한다고 가정할 때, 전체 관측치 대비 훈련용 데이터셋의 비율로 적절한 것은?

☞ 60.0%

 

문76. 히스토그램에 대한 설명은?

☞ 도수분포표로 변환할 수 있음

 왼쪽으로 치우쳐 있으면 데이터 값이 낮은 구간에 몰려있다는 의미임

 누적히스토그램의 마지막 막대 데이터는 전체 데이터의 총 수를 의미함

(오답: 정규분포를 이루는 데이터의 누적히스토그램 기울기는 1임 → 기울기 1은 모든 구간 값이 동일해야 함)

 

문77. 군집분석 모델을 시각화하는 방법은?

☞ 산점도

 

문78. 분석 결과 활용 시나리오에 대한 설명은?

☞ 필요에 따라 적절한 차트와 시각화 도구를 선택하여 사용할 수 있음

☞ 이해관계자들에게 분석결과를 효과적으로 제공할 수 있는 의사소통수단으로 활용할 수 있음

☞ 활용시나리오를 통해 분석결과로부터 인사이트를 발굴하여 의사결정에 반영하는 방법을 선택할 수 있음

(오답: 분석의 목적을 명확히 하는 것에 주안점을 두고 개발함 → 과제 정의서 작성/기획)

 

문79. 인포그래픽의 조건은?

☞ 적절한 스토리

차트/다이어그램을 사용함

데이터를 통해 메시지를 전달함

(오답: 최대한 많은 정보를 담음 → 중요 정보)

 

문80. 분석모형 리모델링에 대한 설명은?

☞ 분석모형의 성능이 크게 떨어졌을 경우 수행함

☞ 새로운 데이터셋을 추가하거나 새로운 알고리즘을 반영할 수 있음

☞ 최종 분석모형을 선정할 때는 기존 분석 모형과 비교하는 과정이 필요함

(오답: 최신 데이터를 활용하여 주기적으로 수행해주어야 함)

 

 

728x90
728x90