빅데이터 분석기사/필기 요약

[빅데이터분석기사/필기요약] Part1.빅데이터 분석기획

✨️데이터분석가✨️ 2023. 4. 16. 13:35
728x90
728x90

[빅데이터분석기사] 필기시험을 경험한 후에 요약한 자료입니다.

시험에 나온 문제! 시험에 나올법한 문제! 시험에 나왔으면 하는 문제! 

최대한 시험 출제 유형과 유사한 내용들로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!


[목차]
Part1. 빅데이터 분석기획
 Part1-1. 빅데이터의 이해
             1. 빅데이터 개요 및 활용
             2. 빅데이터 기술 및 제도
 Part1-2. 데이터 분석 계획
             1. 분석 방안 수립
             2. 분석 작업 계획
 Part1-3. 데이터 수집 및 저장 계획
             1. 데이터 수집 및 전환
             2. 데이터 적재 및 저장

Part1-1. 빅데이터의 이해

1. 빅데이터 개요 및 활용

 

1) 빅데이터의 특징

(1) 데이터의 정의

- DIKW: Data(데이터), Information(정보), Knowledge(지식), Wisdom(지혜)

 

(2) 빅데이터의 특징
3V: Volume(규모), Variety(다양성), Velocity(속도)
- 사후처리, 전수조사, 양, 상관관계

 

2) 빅데이터의 가치

- 사생활 침해(사용주체 책임제), 책임 원칙 훼손(예측의 불이익 최소화), 데이터 오용

 

 

3) 데이터 산업의 이해

- 데이터 분석 + 인사이트 도출 + 효과적 전달

① IT기술 + 분석적 영역 + 비즈니스 컨설팅
② Hard skill(분석 기술지식 등) + Soft skill(의사전달협력 등)

 


4) 빅데이터 조직 및 인력

구분 내용 분석전담조직 특징
집중구조 부서별로 분석 있음 분석업무의 
이원화/이중화
기능구조 부서별로 분석 없음 전사적 핵심분석이 어려움
분산구조 분석 조직 인력들이 
현업부서로 배치되어 분석 업무 수행
분석수준 상향 평준화
신속한 활동 가능
역할 분담의 명확화 필요

 


2. 빅데이터 기술 및 제도

 

1) 빅데이터와 인공지능

인공지능, 머신러닝, 딥러닝 관계
<인공지능, 머신러닝, 딥러닝 관계>

인공지능: 인간의 지적능력을 인공적으로 구현한 기술
머신러닝컴퓨터가 데이터와 모델을 학습하여 규칙을 찾도록 하는 알고리즘 및 기술
딥러닝인공신경망 방식으로 스스로 학습하는 기술 (사람 개입 X)

 

 

2) 개인정보 활용

(1) 개인정보 비식별화 기술

가명처리 총계처리 데이터 삭제 데이터 범주화 데이터 마스킹
다른 값으로 대체 통계값 적용 특정 데이터
값 삭제
대푯값/구간값
으로 변환
음/공백
으로 대체
홍길동 평균 등 - 김 씨 김OO

 

(2) 마이데이터
개인정보 전송요구권, 정보주체가 개인정보 권한을 가지고 개인정보를 직접 관리

 

 


Part1-2. 데이터 분석 계획

1. 분석 방안 수립


1) 분석 로드맵 설정


2) 분석 문제 정의

① 하향식 접근법
문제가 정의되고 해결 방법을 찾기 위해 단계적으로 업무를 수행
  * 문제 탐색: 비즈니스모델외부참조모델/벤치마킹, 분석 유스케이스 정의
② 상향식 접근법
문제를 정의할 수 없는 경우,
  비지도 학습(장바구니분석, 군집분석 등) 기반으로 문제를 정의하고 해결방안을 탐색

③ Design Thinking
상향식 접근법 + 하향식 접근법을 반복하여 최적의 문제 정의

     


3) 데이터 분석 방안

(1) KDD(Knowledge Discovery in Database) 분석 방법론: 데이터 마이닝 프로세스

(2) CRISP-DM 분석 방법론: 단계간 피드백을 통해 완성도 향상

 


2. 분석 작업 계획

 

1) 데이터 확보 계획

 

2) 분석 절차 및 작업 계획

- 작업을 세분화하여 일정과 산출물을 WBS로 정리

 

 

728x90

Part1-3. 데이터 수집 및 저장 계획

1. 데이터 수집 및 전환

 

1) 데이터 수집

 

2) 데이터 유형 및 속성 파악

(1) 데이터 유형

정형 반정형 비정형
- 정형화된 스키마 구조 O
- 고정된 필드 O
- 스키마 구조 O
- 값과 형식이 일관되지 않음
- 스키마 구조 X
- 고정된 필드 X
관계형 데이터베이스(RDB),
스프레드 시트
XML, HTML, 웹 로그, RSS,
  JSON, 센서 데이터
SNS,
이미지/오디오/비디오

 
(2) 데이터 속성 파악

범주형 (정성) 수치형 (정량)
명목형(의미만 구분), 순서형 이산형(셀 수 있는 경우), 연속형
명목 척도, 서열 척도, 등간 척도 비율 척도

 
 

3) 데이터 변환

(1) 데이터 전처리
① 필터링오류공백중복데이터 삭제
② 변환: 데이터 유형을 변환
  → 평활화(노이즈를 구간화/군집화), 집계(요약), 일반화(스케일링), 정규화(구간으로 전환), 속성 생성
③ 정제결측치들을 채우고, 이상치를 제거

(2) 데이터 후처리
① 통합추가 속성을 통합
② 축소: 불필요한 항목 제거
③ 변환: 데이터 유형을 변환
 
 

4) 데이터 비식별화

- 사용자 인증, 접근제어, 암호화, 개인정보 비식별화, 개인정보 암호화
 

  
5) 데이터 품질 검증

정확성: 정의된 기준에 부합
② 유효성: 유효기준 충족
③ 완전성: 누락 X
④ 정합성: 서로 일치
⑤ 유일성: 중복 X
⑥ 유용성: 사용자 편의에 쉽게 접근
⑦ 적시성: 지연 X
⑧ 보안성
⑨ 안전성: 에러, 장애발생 가능성 최소화
⑩ 일관성

 


2. 데이터 적재 및 저장

 

1) 데이터 적재

(1) 원천 데이터 적재
① 추출(Extraction): 데이터를 읽어내는 과정 (모수/항목 제한)
② 변환(Transformation): 데이터의 구성과 형태 연결 (유형 변경)
③ 적재(Loading): 변환된 데이터를 저장
 
 

2) 데이터 저장

(1) 수집데이터 저장
① 정형관계형 데이터베이스(RDB)
- SQL을 통해 데이터의 생성/수정/조회 등 처리
예) Oracle, MSSQL, MYSQL
 
② 반정형NoSQL
- RDB보다 제한이 덜함
- 수평적 확장, 데이터 복제, 간편한 API제공, 유연성 뛰어난 성능, 확장성 용이 등
예) MongoDB, Cassandra, HBase
 
③ 비정형분산파일 시스템
- 확장 가능한 분산된 파일 형태로 저장
- 여러 서버의 파일에 접근할 수 있게 하는 파일 시스템
예) 하둡 분산 파일 시스템(HDFS), 구글 파일 시스템(GFS)
 
 
(2) 데이터 저장 플랫폼
① 데이터 웨어하우스(DW, Data WareHouse)
주제영역별로 데이터를 통합/관리하는 데이터 저장 플랫폼
의사결정 도구의 기초 데이터로 사용
단점: 사전 정의된 스키마에 맞춰 데이터 관리
예) 전사자원관리(ERP), 생산관리(MES), 공급망관리(SCM), 고객관계관리(CRM)
  * 데이터마트: DW에 수집된 데이터를 분석에 효율적인 구조로 재집계한 데이터 모델

 
② 데이터 레이크(Data Lake)
다양한 유형의 데이터를 실시간으로 수집/정제/통합하여 분석에 활용하기 위한 데이터 저장소
장점유연성 높고(소스 데이터 형태 유지), 실시간 분석 활용
단점사용자가 직접 액세스하여 관리/분석하기에 적합 X
  → 분석 저장 프레임워크와 분석 저장 언어 및 메타 관리 솔루션 필요

 

 

※ 자세한 내용은 아래 자료를 참고 부탁드립니다. 

 

 

[빅데이터분석기사/필기요약] Part1-1.빅데이터의 이해

[빅데이터분석기사]는 국가기술자격으로 기사급 자격증입니다. 자격증 취득을 위해 공부했던 필기시험의 첫 번째 요약본을 공유합니다. Part1. 빅데이터 분석기획의 "Chapter1. 빅데이터의 이해"입

dataslog.tistory.com

 

[빅데이터분석기사/필기요약] Part1-2. 데이터 분석 계획

[빅데이터분석기사]의 필기시험 요약자료로 Part1. 빅데이터 분석기획의 "Chapter2. 데이터 분석 계획"입니다. 출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시

dataslog.tistory.com

 

[빅데이터분석기사/필기요약] Part1-3. 데이터 수집 및 저장 계획

[빅데이터분석기사]의 필기시험 요약자료로 Part1. 빅데이터 분석기획의 "Chapter3. 데이터 수집 및 저장 계획"입니다. 출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들

dataslog.tistory.com

 

728x90
728x90