[1과목. 빅데이터 분석기획]
문1. HDFS에 대한 설명은?
☞ GFS 기반으로 만듬
문2. 인공지능학습에 대한 설명은?
☞ 지도학습은 데이터의 정답지가 주어진 상태로 학습하는 것
☞ 강화학습은 특정 조건에서 최적의 행동을 선택하도록 하는 학습방법임
☞ 강인공지능은 인간의 지성을 컴퓨터 정보처리능력으로 구현한 시스템
(오답: 훌륭한 알고리즘을 보유했다면 학습을 생략해도 됨)
문3. 분산 파일 시스템에 대한 설명은?
☞ 여러 컴퓨터를 하나의 서버 환경처럼 연결하여 데이터를 저장, 처리하는 시스템
문4. 분석 로드맵을 수립할 때 고려해야 할 항목은?
☞ 비지니스 성과 및 ROI
☞ 시급성 및 중요도
☞ 실현 가능성
(오답: 분석모델 활용 방안)
문5. DIKW 피라미드 요소 중 지혜에 해당하는 것은?
☞ 초밥도 A마트가 B마트보다 저렴할 것임
문6. 빅데이터 분석 기획 절차는?
☞ 비즈니스 이해 및 범위 설정 → 프로젝트 정의 → 프로젝트 수행 계획 수립 → 프로젝트 위험관리 계획 수립
문7. 개인정보 비식별화에 대한 설명은?
☞ 개인을 알아볼 수 없도록 하는 조치임
☞ 비식별 조치 후에도 모니터링과 기술적 보호 조치를 수행해야 함
☞ 비식별 정보는 사전에 개인정보 해당 여부에 대하여 검토하고, 개인정보가 아닌 것은 활용 가능하도록 함
(오답: 제3자 제공이 가능하며, 불특정 다수에 대한 공개가 가능함)
문8. 개인정보 비식별화 기술에 대한 설명은?
☞ 범주화는 데이터의 값을 범주의 값으로 변환하여 값을 변경하는 기술
☞ 가명처리는 개인 식별에 중요한 데이터를 식별할 수 없는 다른 값으로 변경하는 기술
☞ 총계처리는 데이터의 총합 값으로 처리하여 개별 데이터의 값을 보이지 않도록 하는 기술
(오답: 데이터 마스킹은 개인 식별에 중요한 데이터 값을 삭제하는 것 → * 등 기호를 이용하여 값을 가리는 것)
문9. 빅데이터 처리 플랫폼 특징 중 3V에 해당하는 것은?
☞ 규모
☞ 속도
☞ 다양성
(오답: 가치 → 5V에 해당)
문10. 분석과제 난이도를 하향 조정하여 우선순위를 조정할 때, 고려사항은?
☞ 업무 내재화 범위
☞ 분석과제 수행 범위
☞ 분석 데이터의 적용 수준
(오답: 투자비용)
문11. 인메모리 기반의 데이터 처리 오픈소스 플랫폼은?
☞ 아파치 스파크
문12. 빅데이터 분석 모델링 과정에서 수행하는 업무는?
☞ 데이터 셋 분할
☞ 데이터 모델링
☞ 분석 모델 적용 및 운영 방안 수립
(오답: 프로젝트 성과 관리 및 평가 보고 → 평가 및 활용 단계)
문13. 정형 데이터와 비정형 데이터에 대한 설명은?
☞ 동영상, 오디오 데이터는 비정형 데이터임
☞ 형태소는 비정형 데이터를 분석하기 위한 단어임
☞ 반정형 데이터는 정형과 반정형 성질을 모두 갖고 있음
(오답: JSON과 XML은 비정형 데이터임 → 반정형 데이터)
문14. 고품질 데이터의 특성은?
☞ 정확성
☞ 완전성
☞ 적시성
☞ 일관성
문15. 시스템의 전방에 위치하여 클라이언트로부터 다양한 서비스를 처리하고, 내부 시스템으로 전달하는 미들웨어는?
☞ API 게이트웨이
문16. 데이터 3법은?
☞ 개인정보보호법
☞ 신용정보의 이용 및 보호에 관한 법률
☞ 정보통신망 이용 촉진 및 정보보호 등에 관한 법률
(오답: 정보통신산업 보호법)
문17. 공공데이터 포털에서 제공하는 파일 형식은?
☞ CSV
☞ XML
☞ JSON
(오답: SQL)
문18. 원시 데이터셋 형태로 저장하는 단일한 데이터 저장소는?
☞ 데이터레이크
문19. 데이터에 노이즈를 추가하여 개인정보보호와 데이터분석을 모두 진행할 수 있는 개인정보보호기법은?
☞ 개인정보 차등보호
문20. 빅데이터 저장기술은?
☞ NoSQL
[2과목. 빅데이터 탐색]
문21. 축구 선수의 경우, 일반적인 선수와 탑플레이어 선수의 연봉의 차이가 매우 크다. 축구 선수의 연봉 데이터를 활용하여 팀별 연봉 대푯값을 산출한다고 할 때 의미 있는 통계량은?
☞ 중앙값
(오답: 평균, 범위, 분산)
문22. 가설검정에서 제1종 오류를 범할 확률은?
☞ 유의수준
문23. 시공간 데이터는?
☞ 지도 데이터
☞ 격자 데이터
☞ 패턴 데이터
(오답: 패널 데이터)
문24. 이상값을 찾는 방법에 대한 설명은?
☞ 박스플롯과 산점도 등에서 멀리 떨어진 값을 찾음
☞ 표준정규분포에서 표준편차가 3 이상인 값을 찾음
☞ 도메인 지식에서 이론적이나 물리적으로 맞지 않는 값을 찾음
(오답: 가설 검정의 노이즈 값을 찾음)
문25. 상관관계에 대한 설명은?
☞ 상관계수가 0이면, 상관성이 낮음
☞ 상관계수는 -1 ~ 1 범위에 해당함
☞ 산점도로 상관관계를 알 수 있음
(오답: 결정계수의 제곱임 → )
문26. 평균이 150, 분산이 16인 분포 X에 대해 Y = (X-150) / 4 로 변환하면, Y는 어떤 분포를 따르는가?
☞ N(0, 1), 표준정규분포
문27. 박스플롯에서 3Q보다 항상 작은 값을 갖는 것은?
☞ 중앙값
문28. 주성분 분석에 대한 설명은?
☞ 기존 변수들을 선형 결합하여 새로운 변수를 만듬
☞ 주성분들이 설명하는 분산이 최대한 커지도록 함
☞ 데이터가 이산형, 연속형인 경우에 사용함
(오답: 주성분 분석의 결과와 해석을 직관적으로 이해할 수 있음)
문29. A에서 주어진 점들까지 맨해튼 거리를 구할 때 두번째로 먼 곳까지의 거리는? A(1,1) B(1,2) C(2,2) D(4,1)
☞ 2, C
문30. 제품A, B, C의 생산률은 각각 50%, 30%, 20%이며, 불량률은 1%, 2%, 3%이다. 품질검사에서 불량이 나온 경우, 해당 제품이 A제품일 확률은?
☞ 29.41% (= (50%X1%) / (50%X1% + 30%X2% + 20%X3%) )
문31. 비정형 텍스트 데이터 전처리 기법은?
☞ Stemming
☞ Tokenizing
☞ Pos tagging
(오답: Streaming → 실시간 스트리밍 데이터 수집 기법)
문32. 항목 집합의 지지도를 산출하여 발생 빈도와 최소지지도를 기반으로 거래의 연관성을 밝히는 알고즘은?
☞ Apriori, 연관규칙분석
문33. 오른쪽으로 긴꼬리인 경우, 통계량의 관계는?
☞ 왜도 > 0, 최빈값 < 중위수 < 평균
문34. 포아송분포에 대한 설명은?
☞ 기댓값과 분산이 동일한 확률분포임
☞ 단위시간 안에 사건이 몇 번 발생하는 것을 표현하는 이산확률분포임
☞ 특정 시간대에 은행창구에 도착한 고객수, 책 한페이지당 오탈자수 등이 포아송의 예임
(오답: 이항분포가 n이 커지고, 성공확률 p가 1에 가까우면 포아송분포가 됨 → p가 0에 가까우면)
문35. 평균 x 바, 표준편차 σ인 확률변수에 대하여, X₁ + X₂의 표준편차는?
☞ √2σ
문36. 머신러닝 수행 시 학습 데이터가 불균형한 경우, 해결할 수 있는 방법에 대한 설명은?
☞ 불균형 상태 그대로 머신러닝 모델로 예측하면 과적합 문제가 발생할 수 있음
☞ 과소표집기법은 유의미한 데이터만 남길 수 있다는 장점이 있지만, 정보가 유실된다는 단점이 있음
☞ 과대표집기법은 정보의 손실을 막을 수 있지만, 새로운 테스트 데이터가 추가되면 모델의 결과가 나빠짐
(오답: 가중치가 높은 클래스를 더 예측하려고 하여 정확도는 낮아지고 분포가 작은 클래스의 재현율은 높아짐)
문37. 표준화와 자료분포에 대한 설명은?
☞ 표준화는 단위가 다른 자료를 평균=0, 분산과 표준편차=1이 되도록 변환하는 과정
문38. 변동계수에 대한 설명은?
☞ 상대표준편차라고도 함
☞ 단위가 다른 두 데이터 비교 시, 단위에 영향을 받지 않는 변동성 척도임
☞ 평균과 표준편차를 나누어서 서로 다른 단위의 산포도를 비교할 수 있음
(오답: 표준편차와 분산을 사용하여 두 가지 자료의 산포도를 측정할 수 있음)
문39. 초기하 분포에 대한 설명은?
☞ 이산형 확률분포를 따름
☞ 복원 추출하는 경우, 이항분포를 사용해야 함
☞ 비복원 추출로 인해 각 시행의 성공확률은 일정하지 않음
(오답: 각 시행의 성공확률은 상호 독립적임 → 비복원 추출이라 다음 시행의 성공 여부에 영향을 줌)
문40. Boxplot으로 확인할 수 있는 통계량은?
☞ 중앙값
☞ 이상값
☞ 사분위수범위
(오답: 분산)
[3과목. 빅데이터 모델링]
문41. 텍스트 마이닝에서 문장 2개 이상의 단어로 분리하는 방법은?
☞ N-gram
문42. 선형회귀 모형의 가정에 대한 특성은?
☞ 선형성
☞ 독립성
☞ 정규성
☞ 등분산성
문43. 비지도학습이란 타겟 변수의 (A)이 안 된 모형을 의미하며, 대표적인 모형 예시는 (B)가 있다.
☞ (A) 라벨링, (B) 인공신경망모형
문44. 앙상블 모형에 대한 설명은?
☞ 배깅은 여러 개의 부트스트랩 자료를 생성하고 각 부트스트랩 자료에 예측모형을 만든 후 결합하여 최종 모형을 만드는 방법임
☞ 부스팅은 예측력이 약한 모형을 순차적으로 결합하여 점점 예측력이 강한 모형으로 변화시키는 앙상블 방법임
☞ 랜덤포레스트는 의사결정나무를 여러 개 결합하여 분석하는 모형으로 배깅에 속함
☞ 앙상블 모형은 훈련을 한 뒤 예측에 사용하므로 지도학습에 해당함
문45. 군집분석의 척도로 2차원 공간에서의 피타고라스 정리로 측정하며, L2 거리로 불리는 것은?
☞ 유클리드 거리
문46. 단층 인공신경망에서 수행할 수 있는 논리 문제는?
☞ OR
☞ AND
☞ NOR
(오답: XOR)
문47. 오토인코더 모형에 대한 설명은?
☞ 신경망을 활용한 비지도 학습 기법임
☞ 입력 특성 간 상관관계를 학습하여 출력을 재구성함
☞ 인코드 입력수와 디코드 출력수는 동일함
(오답: 입력층의 뉴런 수는 은닉층의 뉴런 수보다 항상 작음)
문48. 의사결정나무에 대한 설명은?
☞ 두 범주 간의 차이가 없으면 분리를 멈춤
☞ 과적합 방지를 위해 가지치기 작업을 수행함
☞ 지니 지수, 엔트로피 지수 등으로 분리규칙을 설정함
(오답: 이산형 목표변수에만 적용 가능함 → 연속형도 가능)
문49. ROC Carve에 대한 설명은?
☞ 분류분석 결과의 성과분석을 위한 그림임
☞ AUC는 ROC 곡선 아래 면적을 의미함
☞ AUC가 클수록 좋은 분류모형의 결과를 보임
(오답: ROC 곡선의 y축은 1-특이도, x축은 재현율임 → y축 재현율, x축 1-특이도)
문50. 시계열 자료의 성분이 아닌 것은?
☞ 계절 성분
☞ 추세 성분
☞ 불규칙 성분
(오답: 주기 성분)
문51. 혼동행렬로부터 계산 가능한 평가지표는?
☞ 정확도
☞ 재현율
☞ 정밀도 ☞ F1 점수
문52. 불균형 데이터를 평가하기 위한 분류모형의 지표는?
☞ 민감도
☞ 특이도
☞ ROC곡선
(오답: 정확도)
문53. 비모수통계 검정법은?
☞ 부호검정
☞ 크루스칼-왈리스 검정
☞ 윌콕슨 부호순위 검정
(오답: 맥니마 검정)
문54. 로지스틱 회귀분석에서 임의의 사건 A가 발생하지 않을 확률 대비 일어날 확률의 비율을 뜻하는 것은?
☞ 승산(odds)
문55. 계층적 군집분석에 대한 설명은?
☞ 덴드로그램으로 표현할 수 있음
☞ 군집 수를 사전에 설정하지 않아도 됨
☞ N개의 군집으로 시작하여 군집 간 거리를 기준으로 가장 가까운 군집끼리 병합함
(오답: K 평균 군집 분석 → 비계층적 군집분석)
문56. 데이터를 학습/검증/시험 세트 세 가지로 분할하는 방법은?
☞ Holdout
문57. k-fold 교차검증을 수행하는 절차에 알맞은 말은?
① 학습 데이터를 k개의 fold로 나눈다.
② k-1개 fold는 (A), 나머지 한 개는 (B)에 사용하여 모형 성능을 계산한다.
③ 교차 검증 결과 (C)개의 성능 평균값을 얻는다.
☞ (A) 학습, (B) 검증, (C) k
문58. 과대적합을 방지하기 위한 기법은?
☞ 드롭아웃
☞ L2 규제
☞ 배치 정규화
(오답: 활성화함수 적용)
문59. (A)는 모집단에 대한 사전정보가 없는 경우 주어진 관측값 사이의 유사성을 이용하여 전체를 몇 개의 집단으로 그룹화하여 각 집단의 성격을 파악하는 (B) 기반의 분석법이다. 이 분석방법은 군집 내 응집도와 군집 간 분리도를 최대화하도록 군집을 형성해야 한다. 군집분석의 대표적인 방법 중 하나인 (C)는 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법으로 분할적/병합적 방법이 있다. 이 때 군집의 결과는 (D)을 통해서 시각화하여 보여줄 수 있다.
☞ 군집분석, 비지도학습, 계층적군집분석, 덴드로그램
문60. 인공신경망 모형에 대한 설명은?
☞ 두뇌 신경세포인 뉴런을 기본으로 한 학습 기법임
☞ 딥러닝의 기본구조로 DNN은 은닉층을 2개 이상 가짐
☞ 다층 퍼셉트론의 문제점들을 해결하기 위해 등장한 딥러닝임
(오답: 낮은 복잡성으로 모델 해석이 용이함)
[4과목. 빅데이터 결과 해석]
문61. 시공간 시각화 기법은?
☞ 카토그램
문62. 초매개변수의 최적화 기법은?
☞ 랜덤 탐색
☞ 그리드 탐색
☞ 베이지안 최적화
(오답: 경사하강법, 모멘텀, AdaGard, RMSProp, Adam → 매개변수 최적화 기법)
문63. 히트맵에 대한 설명은?
☞ 칸의 색상을 이용해 값의 크기를 나타냄
☞ 행은 관측치, 열은 변수를 나타냄
(오답: 색이 진할수록 값이 작고, 연할수록 값이 큼)
문64. 분류모형 평가지표에 대한 설명은?
☞ 특이도는 실제 거짓인 데이터 중 모형이 거짓으로 예측한 데이터의 비율임
☞ F1 스코어는 정밀도와 재현율의 조화평균으로 데이터가 불균형일 경우 사용하는 지표임
☞ 참긍정률은 실제 참인 데이터 중 모형이 참으로 예측한 데이터의 비율이며 민감도와 같음
(오답: 거짓긍정률은 실제 거짓인 데이터 중 모형이 참으로 예측한 데이터의 비율이며, 1-민감도와 같음 → 1-특이도)
문65. 시각화 기법 중 용도가 다른 것은?
☞ 등치지역도
☞ 도트 플롯 맵
☞ 버블 플롯 맵
(오답: 히트맵 → 비교 시각화 기법)
문66. K-Fold 교차검증에 대한 설명은?
☞ 과대적합 방지를 위해 사용함
☞ 전체 데이터를 k개의 서브셋으로 분리함
☞ k번 반복한 후, 평균을 내어 모델의 성능을 평가함
(오답: 하나의 데이터는 훈련데이터로 k번 사용됨 → k-1번)
문67. 분석모형 진단에 대한 설명은?
☞ 선형회귀 모형은 선형성, 독립성, 등분산성, 정규성 가정하에서 분석함
☞ 등분산성은 잔차의 분산이 일정해야 함을 말하며, Q-Q Plot으로 시각적으로 판단할 수 있음
☞ 분석모형 진단은 분석에 사용된 데이터가 분석모형의 가정을 제대로 만족하고 있는지 확인하는 절차임
(오답: 독립성은 독립변수들 간에 독립성이 없어야 함을 말하며, 잔차 산점도를 통해서 시각적으로 판단할 수 있음)
문68. 혼동행렬 표에 대한 설명은?
구분 | 예측 값 | ||
불량 | 정상 | ||
실제 값 | 불량 | 10 | 5 |
정상 | 10 | 75 |
☞ 정확도는 0.85, 특이도는 0.88, 참긍정률은 0.67임
문69. 회귀모형 평가 지표에 대한 설명은?
☞ RMSE의 값은 0에 가까울수록 좋음
☞ 회귀모형의 실제값과 예측값의 차이를 잔차라고 함
☞ 결정계수가 1에 가까울수록 회귀식이 실제값을 정확히 표현함을 의미함
(오답: 설명변수의 개수가 많아질수록 결정계수는 작아짐)
문70. 과대적합과 과소적합에 대한 설명은?
☞ 과대적합일 경우, 일반화 성능이 좋지 않음
☞ 과대적합일 경우, 모형의 복잡도는 상대적으로 높음
☞ 과소적합일 경우, 학습데이터에서는 성능이 낮게 나타남
(오답: 과소적합일 경우, 검증데이터에서는 성능이 높게 나타남 )
문71. 매개변수 최적화에 대한 설명은?
☞ 분석 모형의 결괏값과 실제값의 차이를 손실함수로 표현함
☞ 분석 모형 학습은 학습 데이터로부터 손실함수의 값을 가장 작게 만드는 매개변수의 최적 값을 찾아가는 과정임
☞ 매개변수 최적화 기법은 경사하강법, 모멘텀, AdaGard, RMSProp 등의 방식이 있음
(오답: 매개변수 최적화를 통해 하이퍼파리미터가 튜닝됨)
문72. 가중치 매개변수에 대한 손실함수의 기울기를 통해 최적값을 구하는 방법이다. 이 때 최적값은 학습 데이터 전체를 대상으로 이루어진다. 전체 데이터에 대해서 업데이트가 이루어지므로 연산횟수가 적고 부드럽게 수렴하는 특성이 있지만, 학습 시간이 오래 걸리고 로컬 최적화에 빠질 위험이 있는 것은?
☞ 배치 경사하강법
문73. ROC 그래프에 대한 설명은?
☞ 민감도가 1, 특이도가 0인 점을 지남
☞ 민감도가 0, 특이도가 1인 점을 지남
☞ 가장 이상적인 그래프는 민감도가 1, 특이도가 1인 점을 지남
(오답: 특이도가 증가하는 그래프임)
문74. 상관성 분석에 대한 설명은?
☞ 수치적 데이터의 상관성 분석 방법으로는 피어슨 상관계수가 있음
☞ 순서적 데이터의 상관성 분석 방법으로는 스피어만 순위상관계수가 있음
☞ 세 개 이상의 변수 사이의 상관성 분석은 다변량 상관분석임
(오답: 명목적 데이터의 상관성 분석은 T-검정을 이용함 → 카이제곱검정)
문75. 분류모형 평가에서 복원추출 방식을 사용하여 훈련용 데이터 선정을 충분히 한다고 가정할 때, 전체 관측치 대비 훈련용 데이터셋의 비율로 적절한 것은?
☞ 60.0%
문76. 히스토그램에 대한 설명은?
☞ 도수분포표로 변환할 수 있음
☞ 왼쪽으로 치우쳐 있으면 데이터 값이 낮은 구간에 몰려있다는 의미임
☞ 누적히스토그램의 마지막 막대 데이터는 전체 데이터의 총 수를 의미함
(오답: 정규분포를 이루는 데이터의 누적히스토그램 기울기는 1임 → 기울기 1은 모든 구간 값이 동일해야 함)
문77. 군집분석 모델을 시각화하는 방법은?
☞ 산점도
문78. 분석 결과 활용 시나리오에 대한 설명은?
☞ 필요에 따라 적절한 차트와 시각화 도구를 선택하여 사용할 수 있음
☞ 이해관계자들에게 분석결과를 효과적으로 제공할 수 있는 의사소통수단으로 활용할 수 있음
☞ 활용시나리오를 통해 분석결과로부터 인사이트를 발굴하여 의사결정에 반영하는 방법을 선택할 수 있음
(오답: 분석의 목적을 명확히 하는 것에 주안점을 두고 개발함 → 과제 정의서 작성/기획)
문79. 인포그래픽의 조건은?
☞ 적절한 스토리
☞ 차트/다이어그램을 사용함
☞ 데이터를 통해 메시지를 전달함
(오답: 최대한 많은 정보를 담음 → 중요 정보)
문80. 분석모형 리모델링에 대한 설명은?
☞ 분석모형의 성능이 크게 떨어졌을 경우 수행함
☞ 새로운 데이터셋을 추가하거나 새로운 알고리즘을 반영할 수 있음
☞ 최종 분석모형을 선정할 때는 기존 분석 모형과 비교하는 과정이 필요함
(오답: 최신 데이터를 활용하여 주기적으로 수행해주어야 함)
'빅데이터 분석기사 > 필기 기출' 카테고리의 다른 글
[빅데이터분석기사/필기기출] 8회 기출문제(24년 4월) (1) | 2024.11.27 |
---|---|
[빅데이터분석기사/필기기출] 5회 기출문제(22년 10월) (3) | 2024.10.03 |