[빅데이터분석기사]의 필기시험 요약자료로
Part1. 빅데이터 분석기획의 "Chapter3. 데이터 수집 및 저장 계획"입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)
[목차]
Part1. 데이터 분석기획
Part1-3. 데이터 수집 및 저장 계획
1. 데이터 수집 및 전환
1) 데이터 수집
2) 데이터 유형 및 속성 파악
3) 데이터 변환
4) 데이터 비식별화
5) 데이터 품질 검증
2. 데이터 적재 및 저장
1) 데이터 적재
2) 데이터 저장
1. 데이터 수집 및 전환
1) 데이터 수집
(1) 데이터 수집 기술
① 정형: ETL, ETP, Open API
② 비정형: Crawling, RSS, ETP, Open API, Scrapy, Apache Kafka
③ 반정형: Sensing, Streaming, Flume, Scribe, Chukwa
2) 데이터 유형 및 속성 파악
(1) 데이터 유형
관점 | 데이터 유형 | 설명 | 예시 |
구조 | 정형 | - 정형화된 스키마 구조 - 고정된 필드에 저장 | - 관계형 데이터베이스(RDB) - 스프레드 시트 |
반정형 | - 스키마 구조 - 값과 형식이 일관되지 않음 | - XML, HTML, 웹 로그, RSS, JSON, 센서 데이터 | |
비정형 | - 스키마 구조 X - 고정된 필드 X | - SNS - 이미지/오디오/비디오 | |
존재 형태 | 실시간 | - 데이터 생성 즉시 분석 활용 | - 센서 데이터 - 시스템/네트워크 장비 로그 |
비실시간 | - 집적하여 분석 활용 | - 웹 로그, 구매/서비스 정보 | |
저장 형태 | 파일 | - 파일 형식 | - 텍스트, 로그 |
데이터베이스 | - 데이터베이스 테이블 | - RDB, NoSQL | |
콘텐츠 | - 객체로 구분되는 미디어 | - 텍스트/이미지/오디오 | |
스트림 | - 실시간으로 전송 | - 센서 데이터 - HTTP 트랜잭션 |
(2) 데이터 속성 파악
데이터 유형 | 데이터 속성 | 데이터 측정 |
범주형 (정성) | 명목형(의미만 구분), 순서형 | 명목 척도, 서열 척도, 등간 척도 |
수치형 (정량) | 이산형(셀 수 있는 경우), 연속형 | 비율 척도 |
3) 데이터 변환
(1) 데이터 전처리
① 필터링: 오류, 공백, 중복데이터 삭제
② 변환: 데이터 유형을 변환
→ 평활화(노이즈를 구간화/군집화), 집계(요약), 일반화(스케일링), 정규화(구간으로 전환), 속성 생성 등
③ 정제: 결측치들을 채우고, 이상치를 제거
(2) 데이터 후처리
① 통합: 추가 속성을 통합
② 축소: 불필요한 항목 제거
③ 변환: 데이터 유형을 변환
4) 데이터 비식별화
① 사용자 인증: 접근자격을 확인 (ID/PW 등)
② 접근제어: 객체에 대한 권한 확인
③ 암호화: 암호화 알고리즘을 통해 데이터 변경
④ 개인정보 비식별화: 개인을 특정할 수 없도록 처리
⑤ 개인정보 암호화: 개인정보가 포함된 특정 필드를 암호화
5) 데이터 품질 검증
(1) 데이터 품질 요소
① 정확성: 정의된 기준에 부합
② 유효성: 유효기준 충족
③ 완전성: 누락 X
④ 정합성: 서로 일치
⑤ 유일성: 중복 X
⑥ 유용성: 사용자 편의에 쉽게 접근
⑦ 적시성: 지연 X
⑧ 보안성
⑨ 안전성: 에러, 장애발생 가능성 최소화
⑩ 일관성
(2) 데이터 변환 품질 검증
① 메타데이터 수집: 정의서 등을 통해 데이터의 구조/특성/관계 등을 명세화
② 메타데이터 분석: 수집된 데이터 vs. 실제 데이터의 불일치 사항 분석
③ 데이터 속성 분석: 누락 값, 허용 범위 등을 분석하여 품질 확인
2. 데이터 적재 및 저장
1) 데이터 적재
(1) 원천 데이터 적재
① 추출(Extraction): 데이터를 읽어내는 과정 (모수/항목 제한)
② 변환(Transformation): 데이터의 구성과 형태 연결 (유형 변경)
③ 적재(Loading): 변환된 데이터를 저장
2) 데이터 저장
(1) 수집데이터 저장
① 정형: 관계형 데이터베이스(RDB)
- SQL을 통해 데이터의 생성/수정/조회 등 처리
예) Oracle, MSSQL, MYSQL
② 반정형: NoSQL
- RDB보다 제한이 덜함
- 수평적 확장, 데이터 복제, 간편한 API제공, 유연성 뛰어난 성능, 확장성 용이 등
예) MongoDB, Cassandra, HBase
③ 비정형: 분산파일 시스템
- 확장 가능한 분산된 파일 형태로 저장
- 여러 서버의 파일에 접근할 수 있게 하는 파일 시스템
예) 하둡 분산 파일 시스템(HDFS), 구글 파일 시스템(GFS)
(2) 데이터 저장 플랫폼
① 데이터 웨어하우스(DW, Data WareHouse)
- 주제영역별로 데이터를 통합/관리하는 데이터 저장 플랫폼
- 의사결정 도구의 기초 데이터로 사용
- 단점: 사전 정의된 스키마에 맞춰 데이터 관리
예) 전사자원관리(ERP), 생산관리(MES), 공급망관리(SCM), 고객관계관리(CRM)
* 데이터마트: DW에 수집된 데이터를 분석에 효율적인 구조로 재집계한 데이터 모델
② 데이터 레이크(Data Lake)
- 다양한 유형의 데이터를 실시간으로 수집/정제/통합하여 분석에 활용하기 위한 데이터 저장소
- 장점: 유연성 높고(소스 데이터 형태 유지), 실시간 분석 활용
- 단점: 사용자가 직접 액세스하여 관리/분석하기에 적합 X
→ 분석 저장 프레임워크와 분석 저장 언어 및 메타 관리 솔루션 필요
'빅데이터 분석기사 > 필기 요약' 카테고리의 다른 글
[빅데이터분석기사/필기요약] Part2-3. 통계기법 이해 (0) | 2023.03.28 |
---|---|
[빅데이터분석기사/필기요약] Part2-2. 데이터 탐색 (0) | 2023.03.25 |
[빅데이터분석기사/필기요약] Part2-1. 데이터 전처리 (0) | 2023.03.23 |
[빅데이터분석기사/필기요약] Part1-2. 데이터 분석 계획 (0) | 2023.03.20 |
[빅데이터분석기사/필기요약] Part1-1.빅데이터의 이해 (4) | 2023.03.19 |