빅데이터 분석기사/필기 요약

[빅데이터분석기사/필기요약] Part2-2. 데이터 탐색

✨️데이터분석가✨️ 2023. 3. 25. 23:37
728x90
728x90

[빅데이터분석기사]의 필기시험 요약자료로
Part2. 빅데이터 탐색의 "Chapter2. 데이터 탐색"입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)


[목차]
Part2. 빅데이터 탐색
 Part2-2. 데이터 탐색
           1. 데이터 탐색 기초
              1) 데이터 탐색 개요
              2) 상관관계 분석 
              3) 기초통계량 추출 및 이해
              4) 시각적 데이터 탐색
           2. 고급 데이터 탐색
              1) 시공간 데이터 탐색
              2) 다변량 데이터 탐색
              3) 비정형 데이터 탐색

1. 데이터 탐색 기초

1) 데이터 탐색 개요

(1) 탐색적 데이터 분석(EDA)
- 데이터를 이해하고 의미있는 관계를 찾아내는 과정
- 중요변수 선별, 변수관계 이해, 초기모델 개발로 연계
- 분석목적 설정 → 모집단 정의 → 표본추출 → 자료측정 → 데이터 수집 → 통계기법 적용
① 저항성결측값/이상값에 영향을 적게 받는 성질
  → EDA는 저항성이 큰 데이터를 이용
② 잔차 해석: 주 경향에서 벗어난 값이 왜 존재하는지 탐색
③ 자료 재표현: 적당한 척도로 바꾸어 데이터 분석과 해석을 단순화
④ 현시성: 시각화

 

(2) 개별 데이터 탐색

구분 데이터 유형 통계량 데이터분포 특성 파악 시각화
범주형 질적
명목형/순서형
빈도수, 최빈값,
비율, 백분율
중심성변동성 막대형 그래프
수치형 양적
이산형/연속형
평균, 분산, 
표준편차, 첨도, 왜도
정규성 박스 플롯,
히스토그램

 

(3) 다차원 데이터 탐색

구분 탐색 방법 분석 시각화
범주형 - 범주형 조합 빈도수, 비율 연관성 분석 막대형 그래프
수치형 - 수치형 조합 산점도, 기울기 상관성 분석
피어슨상관계수로
관계 방향/강도 파악
산점도
범주형 - 수치형 조합   그룹 간의 기술통계량 차이 비교 박스 플롯

 

 

2) 상관관계 분석

- 상호 연관성의 존재여부 및 강도 측정
- 선후관계가 명확하지 않고 관련 정도를 파악 (인과관계는 선후관계 명확)


(1) 상관관계 표현과 해석
① 산점도
② 상관계수: 두 변수 사이의 방향성과 강도
- 0.7≤ r <1 : 강한 양의 상관관계

- 0.3≤ r <0.7 : 보통의 상관관계

- 0.1≤ r <0.3 : 약한 양의 상관관계

 

(2) 상관관계 분석 유형

구분 변수연산 여부 분석 유형
수치형 (등간/비율척도) 연산 가능 피어슨 상관계수
순서형 연산 불가능 스피어만 상관계수
명목형 연산 불가능 카이제곱 검정 (교차분석)

 

 

3) 기초 통계량 추출 및 이해

(1) 중심 경향성의 통계량

① 평균

② 중위수(중앙값): 중앙에 위치한 값, 평균보다 이상값에 영향을 덜 받음

- 데이터 개수가 짝수일 경우, 중앙에 두 개 값의 평균으로 함

③ 최빈값: 가장 많이 과측되는 값

 

(2) 산포도의 통계량

① 범위 = 최대-최소
② 분산 = 편차의 제곱합, 데이터의 흩어진 정도 (편차의 합은 0)
③ 표준편차 = 분산에 제곱근 취한 값
④ 변동계수 = 상대 표준편차
- 측정 단위가 다른 자료 비교할 때 사용
⑤ 사분위수 = IQR = Q3 - Q1

 

(3) 분포의 통계량

왜도 (비대칭성)
첨도 (중심성)
 
왜도 < 0 : 왼쪽 꼬리, 평균 < 중위수 < 최빈값
왜도 = 0 : 정규분포
왜도 > 0 : 최빈값 < 중위수 < 평균 
왜도 = 3 X (평균 - 최빈중앙) / 표준편차
첨도 < 0 : 평평한 분포
첨도 = 3 : 정규분포
첨도 > 0 : 뾰족한 분포

 

 

4) 시각적 데이터 탐색

히스토그램 막대그래프 박스플롯 산점도

 
- 연속형 변수를 구간으로 분리
- 구간별 빈도 표시

- 막대넓이는 구간
- 막대가 붙어있음
- 범주형 변수 빈도수,
  연속형 변수 값 비교

- 막대넓이는 의미 X
- 막대가 떨어져 있음
- 이상치 파악에 용이 - 연속형 데이터의
  상관관계 파악

 

 


2. 고급 데이터 탐색


1) 시공간 데이터 탐색

공간데이터(객체의 위치 및 공간관계 정보 관련 데이터)에 시간 개념을 추가

 

(1) 시공간 데이터 유형
①  : 1개의 노드로 구성
②  : 2개의 노드 및 하나의 세그먼트로 구성
③  : 3개 이상의 노드 및 n개의 세그먼트로 구성

 

(2) 시공간 데이터 탐색 방법
① 코로플레스 지도 = 등치지역도

- 지도에 지정한 색상으로 표기 (보편적)
② 카토그램 = 변량비례도

면적이 왜곡되는 지도
③ 버블플롯맵

- 좌표를 으로 시각화

 


2) 다변량 데이터 탐색

(1) 다변량 데이터 종류
① 일변량: 종속변수 1개
- 기술통계량(평균, 분산, 표준편차), 그래프통계량(히스토그램, 상자그림)
② 이변량: 종속변수 2개
- 두 변수 사이의 관계 파악 목적
③ 다변량: 종속변수 3개
- 시각적으로 자료 탐색

 

(2) 다변량 데이터 탐색 방법
① 상관분석
- 여러변수를 조합한 산점도 행렬
- 예) 그림행렬(최대 20개 변수 사용, 모든 조합의 그래프), 개별Y 대 개별X 산점도 행렬(각 XY 조합의 그래프)
② 다차원척도법
- 유사성 수준을 점으로 시각화
유클리드 거리 주로 활용
- 예) 계량형(실제거리를 근접도로 이용), 비계량형(순서정보를 근접도로 이용)
③ 주성분분석
고차원 → 저차원 데이터로 변환하는 차원축소 기법
주성분은 데이터의 방향성이 가장 큰 벡터
- 전처리로 수행
④ 선형판별분석
- 어떤 그룹에 속할지를 판별하는 분석
정규분포를 따른다는 가정하에 진행
- 차원축소로 활용

 


3) 비정형 데이터 탐색

(1) 비정형 데이터 특성
① 비정형
텍스트: 단어들의 빈도, 키워드 분석
이미지: 이미지 한 픽셀마다 수치로 변환, CNN(합성곱신경망) 이용
② 반정형
XML: HTML을 개선하여 만든 마크업 언어, SGML문서형식을 따름
JSON: 자바스크립트 구문 형식의 독립형 데이터 포맷, 사람이 읽을 수 있는 데이터 포맷
HTML: 웹 페이지, 구조적 문서를 만들 수 있는 방법

 

(2) 비정형 데이터 탐색 방법
① 텍스트: 데이터 파싱 후 탐색
② 동영상,이미지: 데이터 유형별로 응용소프트웨어 이용하여 탐색
③ XML, JSON, HTML: 데이터 파싱 후 탐색
④ 비정형 데이터 탐색 플랫폼 구성: 다양한 오픈소스 활용
- 구성요소: HDFS, 맵리듀스, 주키퍼 AVRO, HIVE, PIG, HCatalog

 

728x90
728x90