빅데이터 분석기사/필기 요약

[빅데이터분석기사/필기요약] Part1-3. 데이터 수집 및 저장 계획

✨️데이터분석가✨️ 2023. 3. 21. 21:22
728x90
728x90

[빅데이터분석기사]의 필기시험 요약자료로
Part1. 빅데이터 분석기획의 "Chapter3. 데이터 수집 및 저장 계획"입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)


[목차]
Part1. 데이터 분석기획
 Part1-3. 데이터 수집 및 저장 계획
           1. 데이터 수집 및 전환
              1) 데이터 수집
              2) 데이터 유형 및 속성 파악
              3) 데이터 변환
              4) 데이터 비식별화
              5) 데이터 품질 검증
           2. 데이터 적재 및 저장
              1) 데이터 적재
              2) 데이터 저장

1. 데이터 수집 및 전환

 

1) 데이터 수집

(1) 데이터 수집 기술
정형: ETL, ETP, Open API
비정형: Crawling, RSS, ETP, Open API, Scrapy, Apache Kafka
반정형: Sensing, Streaming, Flume, Scribe, Chukwa    
 
 

2) 데이터 유형 및 속성 파악

(1) 데이터 유형

관점데이터 유형설명예시
구조정형- 정형화된 스키마 구조
- 고정된 필드에 저장
- 관계형 데이터베이스(RDB)
- 스프레드 시트
반정형- 스키마 구조
- 값과 형식이 일관되지 않음
- XML, HTML, 웹 로그, RSS,
  JSON, 센서 데이터
비정형- 스키마 구조 X
- 고정된 필드 X
- SNS
- 이미지/오디오/비디오
존재 형태실시간- 데이터 생성 즉시 분석 활용- 센서 데이터
- 시스템/네트워크 장비 로그
비실시간- 집적하여 분석 활용- 웹 로그, 구매/서비스 정보
저장 형태파일- 파일 형식- 텍스트, 로그
데이터베이스- 데이터베이스 테이블- RDB, NoSQL
콘텐츠- 객체로 구분되는 미디어- 텍스트/이미지/오디오
스트림- 실시간으로 전송- 센서 데이터
- HTTP 트랜잭션



 
(2) 데이터 속성 파악

데이터 유형데이터 속성데이터 측정
범주형 (정성)명목형(의미만 구분), 순서형명목 척도, 서열 척도, 등간 척도
수치형 (정량)이산형(셀 수 있는 경우), 연속형비율 척도

 
 

3) 데이터 변환

(1) 데이터 전처리
필터링: 오류, 공백, 중복데이터 삭제
변환: 데이터 유형을 변환
  → 평활화(노이즈를 구간화/군집화), 집계(요약), 일반화(스케일링), 정규화(구간으로 전환), 속성 생성 등
정제: 결측치들을 채우고, 이상치를 제거

 
(2) 데이터 후처리
통합: 추가 속성을 통합
축소: 불필요한 항목 제거
변환: 데이터 유형을 변환
 
 

4) 데이터 비식별화

사용자 인증: 접근자격을 확인 (ID/PW 등)
접근제어: 객체에 대한 권한 확인
암호화: 암호화 알고리즘을 통해 데이터 변경
개인정보 비식별화: 개인을 특정할 수 없도록 처리
개인정보 암호화: 개인정보가 포함된 특정 필드를 암호화
 

  
5) 데이터 품질 검증

(1) 데이터 품질 요소
정확성: 정의된 기준에 부합
유효성: 유효기준 충족
완전성: 누락 X
정합성: 서로 일치
유일성: 중복 X
유용성: 사용자 편의에 쉽게 접근
적시성: 지연 X
보안성
안전성: 에러, 장애발생 가능성 최소화
일관성
 
(2) 데이터 변환 품질 검증
메타데이터 수집: 정의서 등을 통해 데이터의 구조/특성/관계 등을 명세화
메타데이터 분석: 수집된 데이터 vs. 실제 데이터의 불일치 사항 분석
데이터 속성 분석: 누락 값, 허용 범위 등을 분석하여 품질 확인
 


2. 데이터 적재 및 저장

 

1) 데이터 적재

(1) 원천 데이터 적재
추출(Extraction): 데이터를 읽어내는 과정 (모수/항목 제한)
변환(Transformation): 데이터의 구성과 형태 연결 (유형 변경)
적재(Loading): 변환된 데이터를 저장
 
 

2) 데이터 저장

(1) 수집데이터 저장
정형: 관계형 데이터베이스(RDB)
- SQL을 통해 데이터의 생성/수정/조회 등 처리
예) Oracle, MSSQL, MYSQL
 
반정형: NoSQL
- RDB보다 제한이 덜함
- 수평적 확장, 데이터 복제, 간편한 API제공, 유연성 뛰어난 성능, 확장성 용이 등
예) MongoDB, Cassandra, HBase
 
비정형: 분산파일 시스템
- 확장 가능한 분산된 파일 형태로 저장
- 여러 서버의 파일에 접근할 수 있게 하는 파일 시스템
예) 하둡 분산 파일 시스템(HDFS), 구글 파일 시스템(GFS)
 
 
(2) 데이터 저장 플랫폼
데이터 웨어하우스(DW, Data WareHouse)
- 주제영역별로 데이터를 통합/관리하는 데이터 저장 플랫폼
- 의사결정 도구의 기초 데이터로 사용
- 단점: 사전 정의된 스키마에 맞춰 데이터 관리
예) 전사자원관리(ERP), 생산관리(MES), 공급망관리(SCM), 고객관계관리(CRM)
  * 데이터마트: DW에 수집된 데이터를 분석에 효율적인 구조로 재집계한 데이터 모델

 
데이터 레이크(Data Lake)
- 다양한 유형의 데이터를 실시간으로 수집/정제/통합하여 분석에 활용하기 위한 데이터 저장소
- 장점: 유연성 높고(소스 데이터 형태 유지), 실시간 분석 활용
- 단점: 사용자가 직접 액세스하여 관리/분석하기에 적합 X
  → 분석 저장 프레임워크와 분석 저장 언어 및 메타 관리 솔루션 필요
 

728x90
728x90