[빅데이터분석기사] 필기시험을 경험한 후에 요약한 자료입니다.
시험에 나온 문제! 시험에 나올법한 문제! 시험에 나왔으면 하는 문제!
최대한 시험 출제 유형과 유사한 내용들로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
[목차]
Part1. 빅데이터 분석기획
Part1-1. 빅데이터의 이해
1. 빅데이터 개요 및 활용
2. 빅데이터 기술 및 제도
Part1-2. 데이터 분석 계획
1. 분석 방안 수립
2. 분석 작업 계획
Part1-3. 데이터 수집 및 저장 계획
1. 데이터 수집 및 전환
2. 데이터 적재 및 저장
Part1-1. 빅데이터의 이해
1. 빅데이터 개요 및 활용
1) 빅데이터의 특징
(1) 데이터의 정의
- DIKW: Data(데이터), Information(정보), Knowledge(지식), Wisdom(지혜)
(2) 빅데이터의 특징
- 3V: Volume(규모), Variety(다양성), Velocity(속도)
- 사후처리, 전수조사, 양, 상관관계
2) 빅데이터의 가치
- 사생활 침해(사용주체 책임제), 책임 원칙 훼손(예측의 불이익 최소화), 데이터 오용
3) 데이터 산업의 이해
- 데이터 분석 + 인사이트 도출 + 효과적 전달
① IT기술 + 분석적 영역 + 비즈니스 컨설팅
② Hard skill(분석 기술, 지식 등) + Soft skill(의사전달, 협력 등)
4) 빅데이터 조직 및 인력
구분 | 내용 | 분석전담조직 | 특징 |
집중구조 | 부서별로 분석 | 있음 | 분석업무의 이원화/이중화 |
기능구조 | 부서별로 분석 | 없음 | 전사적 핵심분석이 어려움 |
분산구조 | 분석 조직 인력들이 현업부서로 배치되어 분석 업무 수행 |
분석수준 상향 평준화 신속한 활동 가능 역할 분담의 명확화 필요 |
2. 빅데이터 기술 및 제도
1) 빅데이터와 인공지능
- 인공지능: 인간의 지적능력을 인공적으로 구현한 기술
- 머신러닝: 컴퓨터가 데이터와 모델을 학습하여 규칙을 찾도록 하는 알고리즘 및 기술
- 딥러닝: 인공신경망 방식으로 스스로 학습하는 기술 (사람 개입 X)
2) 개인정보 활용
(1) 개인정보 비식별화 기술
가명처리 | 총계처리 | 데이터 삭제 | 데이터 범주화 | 데이터 마스킹 |
다른 값으로 대체 | 통계값 적용 | 특정 데이터 값 삭제 |
대푯값/구간값 으로 변환 |
잡음/공백 으로 대체 |
홍길동 | 평균 등 | - | 김 씨 | 김OO |
(2) 마이데이터
- 개인정보 전송요구권, 정보주체가 개인정보 권한을 가지고 개인정보를 직접 관리
Part1-2. 데이터 분석 계획
1. 분석 방안 수립
1) 분석 로드맵 설정
2) 분석 문제 정의
① 하향식 접근법
- 문제가 정의되고 해결 방법을 찾기 위해 단계적으로 업무를 수행
* 문제 탐색: 비즈니스모델, 외부참조모델/벤치마킹, 분석 유스케이스 정의
② 상향식 접근법
- 문제를 정의할 수 없는 경우,
비지도 학습(장바구니분석, 군집분석 등) 기반으로 문제를 정의하고 해결방안을 탐색
③ Design Thinking
- 상향식 접근법 + 하향식 접근법을 반복하여 최적의 문제 정의
3) 데이터 분석 방안
(1) KDD(Knowledge Discovery in Database) 분석 방법론: 데이터 마이닝 프로세스
(2) CRISP-DM 분석 방법론: 단계간 피드백을 통해 완성도 향상
2. 분석 작업 계획
1) 데이터 확보 계획
2) 분석 절차 및 작업 계획
- 작업을 세분화하여 일정과 산출물을 WBS로 정리
Part1-3. 데이터 수집 및 저장 계획
1. 데이터 수집 및 전환
1) 데이터 수집
2) 데이터 유형 및 속성 파악
(1) 데이터 유형
정형 | 반정형 | 비정형 |
- 정형화된 스키마 구조 O - 고정된 필드 O |
- 스키마 구조 O - 값과 형식이 일관되지 않음 |
- 스키마 구조 X - 고정된 필드 X |
관계형 데이터베이스(RDB), 스프레드 시트 |
XML, HTML, 웹 로그, RSS, JSON, 센서 데이터 |
SNS, 이미지/오디오/비디오 |
(2) 데이터 속성 파악
범주형 (정성) | 수치형 (정량) |
명목형(의미만 구분), 순서형 | 이산형(셀 수 있는 경우), 연속형 |
명목 척도, 서열 척도, 등간 척도 | 비율 척도 |
3) 데이터 변환
(1) 데이터 전처리
① 필터링: 오류, 공백, 중복데이터 삭제
② 변환: 데이터 유형을 변환
→ 평활화(노이즈를 구간화/군집화), 집계(요약), 일반화(스케일링), 정규화(구간으로 전환), 속성 생성 등
③ 정제: 결측치들을 채우고, 이상치를 제거
(2) 데이터 후처리
① 통합: 추가 속성을 통합
② 축소: 불필요한 항목 제거
③ 변환: 데이터 유형을 변환
4) 데이터 비식별화
- 사용자 인증, 접근제어, 암호화, 개인정보 비식별화, 개인정보 암호화
5) 데이터 품질 검증
① 정확성: 정의된 기준에 부합
② 유효성: 유효기준 충족
③ 완전성: 누락 X
④ 정합성: 서로 일치
⑤ 유일성: 중복 X
⑥ 유용성: 사용자 편의에 쉽게 접근
⑦ 적시성: 지연 X
⑧ 보안성
⑨ 안전성: 에러, 장애발생 가능성 최소화
⑩ 일관성
2. 데이터 적재 및 저장
1) 데이터 적재
(1) 원천 데이터 적재
① 추출(Extraction): 데이터를 읽어내는 과정 (모수/항목 제한)
② 변환(Transformation): 데이터의 구성과 형태 연결 (유형 변경)
③ 적재(Loading): 변환된 데이터를 저장
2) 데이터 저장
(1) 수집데이터 저장
① 정형: 관계형 데이터베이스(RDB)
- SQL을 통해 데이터의 생성/수정/조회 등 처리
예) Oracle, MSSQL, MYSQL
② 반정형: NoSQL
- RDB보다 제한이 덜함
- 수평적 확장, 데이터 복제, 간편한 API제공, 유연성 뛰어난 성능, 확장성 용이 등
예) MongoDB, Cassandra, HBase
③ 비정형: 분산파일 시스템
- 확장 가능한 분산된 파일 형태로 저장
- 여러 서버의 파일에 접근할 수 있게 하는 파일 시스템
예) 하둡 분산 파일 시스템(HDFS), 구글 파일 시스템(GFS)
(2) 데이터 저장 플랫폼
① 데이터 웨어하우스(DW, Data WareHouse)
- 주제영역별로 데이터를 통합/관리하는 데이터 저장 플랫폼
- 의사결정 도구의 기초 데이터로 사용
- 단점: 사전 정의된 스키마에 맞춰 데이터 관리
예) 전사자원관리(ERP), 생산관리(MES), 공급망관리(SCM), 고객관계관리(CRM)
* 데이터마트: DW에 수집된 데이터를 분석에 효율적인 구조로 재집계한 데이터 모델
② 데이터 레이크(Data Lake)
- 다양한 유형의 데이터를 실시간으로 수집/정제/통합하여 분석에 활용하기 위한 데이터 저장소
- 장점: 유연성 높고(소스 데이터 형태 유지), 실시간 분석 활용
- 단점: 사용자가 직접 액세스하여 관리/분석하기에 적합 X
→ 분석 저장 프레임워크와 분석 저장 언어 및 메타 관리 솔루션 필요
※ 자세한 내용은 아래 자료를 참고 부탁드립니다.
'빅데이터 분석기사 > 필기 요약' 카테고리의 다른 글
[빅데이터분석기사/필기요약] Part3.빅데이터 모델링 (0) | 2023.04.18 |
---|---|
[빅데이터분석기사/필기요약] Part2. 빅데이터 탐색 (2) | 2023.04.17 |
[빅데이터분석기사/필기후기] 제6회 필기시험 후기(기출문제) (0) | 2023.04.09 |
[빅데이터분석기사/필기요약] Part4-2. 분석결과 해석 및 활용 (0) | 2023.04.06 |
[빅데이터분석기사/필기요약] Part4-1. 분석모형 평가 및 개선 (0) | 2023.04.05 |