빅데이터 분석기사/필기 요약

[빅데이터분석기사/필기요약] Part2. 빅데이터 탐색

✨️데이터분석가✨️ 2023. 4. 17. 17:00
728x90
728x90

[빅데이터분석기사] 필기시험을 경험한 후에 요약한 자료입니다.

시험에 나온 문제! 시험에 나올법한 문제! 시험에 나왔으면 하는 문제! 

최대한 시험 출제 유형과 유사한 내용들로 요약했으니,

이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!


[목차]
Part2. 빅데이터 탐색
 Part2-1. 데이터 전처리
           1. 데이터 정제
           2. 분석 변수 처리
 Part2-2. 데이터 탐색
           1. 데이터 탐색 기초
           2. 고급 데이터 탐색
 Part2-3. 통계기법 이해
           1. 기술통계
           2. 추론통계

Part2-1. 데이터 전처리

1. 데이터 정제

 

1) 결측값 처리 (N/A, 빈칸)

(1) 종류

완전 무작위 결측 무작위 결측 비무작위 결측
다른 변수와 연관 없음
결과에 영향을 미치지 않음
다른 변수와 연관 있음
결과에 영향을 미치지 않음
다른 변수와 연관 있음
결과에 영향을
 미침

 

(2) 처리방법

  • 단순 대치법
    ① 완전 분석법완전한 자료만 사용  → 시간단축 but, 결과의 타당성 문제
     평균 대치법통계량로 대체  → 결측값의 발생이 다른 변수와 관련성 있는 경우 유용
    ③ 단순 확률 대치법: 적절한 확률값 부여 후 대체  → 과소추정 문제 보완
      - 핫덱(Hot-Deck): 비슷한 성향을 가진 응답자 값으로 대체
      - 콜드덱(Cold-Deck): 외부 출처나 다른 설문조사 값으로 대체
      - 혼합
  • 다중 대치법 
    단순 대치법을 여러 번 수행하여 결측값이 대체된 여러 개의 데이터를 생성한 뒤 통계 분석

 

 

2) 이상값 처리

(1) 검출방법

  • 통계 지표 활용
    - ESD, 기하평균, 사분위수
  • 시각화 활용
    - 히스토그램,  밀도차트, 상자그림
  • 고급 통계 기법 활용
    ① 비지도 학습
      - K-Means(평균) 클러스터링으로 k개의 군집으로 묶고 군집으로 정의되지 않은 영역을 이상값으로 검출

    ② 마할라노비스 거리
      - 평균으로부터 벗어난 정도로 이상값 검출

    ③ LOF
      - 관측치 주변 밀도의 상대적인 비교를 통해 이상값 검출

    ④ Iforest
      - 의사결정나무를 이용하여 분할 횟수로 이상값 검출

(2) 처리방법

삭제(양극단 값 절단)대체(상한/하한값, 평균/중위수 등), 변환(자연로그)

 


2. 분석 변수 처리

1) 변수 선택

(1) 변수 유형

① 독립 변수(x) = 원인/예측 변수

② 종속 변수(y) = 반응/결과 변수

→ 인과관계

 

(2) 변수 선택

- 관련성 높은 독립변수 선택

- 모델 단순화 → 모델링 시간 단축 및 과적합↓ → 정확도 ↑

① 필터 기법통계적 특성으로 상관관계 탐색 후 변수 선택 (모델링 X)

② 래퍼 기법: 변수의 일부만 모델링에 사용, 하위 집합을 반복하여 변수 선택

  # 변수 선택 알고리즘 유형
  - 전진 선택법: 하나씩 추가
  - 후진 선택법: 하나씩 제거
  - 단계적 방법: 전진 + 후진 선택법
③ 임베디드 기법모델 자체에 변수 선택 포함, 최적의 변수 선택
예) 라쏘, 릿지, 엘라스틱 넷, SelectFromModel

 

※ 모형 적합도를 나타내는 통계지표

- F-값 ↑- R² = 1- AIC ↓

 

 

2) 차원축소

- 독립변수 간 강한 상관관계 → 다중공선성 발생 → 모델의 정확도/신뢰성↓ → 차원축소 활용

① 주성분분석(PCA)
- 대표하는 차원의 주성분을 생성하여 전체 변동을 설명

N x N 정방행렬

고차원 → 저차원 데이터로 변환

→ 상호 직교하는 성격의 알고리즘
② 선형판별분석(LDA)

- 집단 구분을 예측하는데 활용

- 정규분포를 따른다는 가정하에 진행

특이값 분해(SVD)

- PCA와 유사한 행렬 분해 기법
- 단, 행과 열의 크기가 다른 M x N 행렬 데이터 적용
④ 요인 분석(Factor Analysis)

- 잠재변수 존재 시, 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법

유사변수들끼리 묶어주는 방법
⑤ 독립성분 분석(ICA)

- 독립적인 하부성분으로 분리하여 차원을 축소

비정규분포를 따름

⑥ 다차원 척도법(MDS)

- 개체들간의 유사성/비유사성 측정 → 개체들의 집단화를 시각적으로 표현

- 유클리드 거리를 주로 활용

 

 

3) 파생변수 (다시 정의한 변수)

- 대표성 및 논리적 타당성 필요

 

 

4) 변수 변환 방법

① 로그/지수 변환
  - 한쪽으로 치우친 변수를 로그/지수로 변환하여 기울어짐을 감소시킴
② 비닝
  - 데이터 평활화에서 사용
  - 연속형 → 범주형 데이터
③ 더미변수화
  - 값이 있으면 1, 없으면 0
  - 범주형 → 연속형 데이터
④ 스케일링
  - 특정 구간을 바꾸는 척도법
  - 예) 최소-최대 정규화, Z-score 정구화
⑤ Box-Cox 변환
  - 정규분포에 가깝게 만들거나, 분산 안정화하는 방법
  - 역변환 및 제곱근변환을 적용
⑥ 구간나누기
  - 클러스터링(타깃변수 설정 X)
  - 의사결정나무(타깃변수 설정 O)

 

 

5) 불균형 데이터 처리 (데이터 양에 불균형)

① 과소표집: 무작위로 일부만 선택, 중요데이터 소실
② 과대표집: 무작위로 복사, 중복데이터 과적합
SMOTE: 주변 값 기준으로 새로운 데이터 생성

 

 


Part2-2. 데이터 탐색

1. 데이터 탐색 기초

 

1) 데이터 탐색 개요

(1) 탐색적 데이터 분석(EDA)
- 저항성(결측값/이상값에 영향 적음), 잔차 해석, 자료 재표현, 현시성(시각화)

 

(2) 개별 데이터 탐색

구분 데이터 유형 통계량 데이터분포 특성 파악 시각화
범주형 질적
명목형/순서형
빈도수, 최빈값,
비율, 백분율
중심성변동성 막대형 그래프
수치형 양적
이산형/연속형
평균, 분산, 
표준편차, 첨도, 왜도
정규성 박스 플롯,
히스토그램

 

(3) 다차원 데이터 탐색

구분 탐색 방법 분석 시각화
범주형 - 범주형 조합 빈도수, 비율 연관성 분석 막대형 그래프
수치형 - 수치형 조합 산점도, 기울기 상관성 분석
피어슨상관계수로
관계 방향/강도 파악
산점도
범주형 - 수치형 조합 - 그룹 간의 기술통계량 차이 비교 박스 플롯

 

 

2) 상관관계 분석

- 상호 연관성의 존재/강도 측정 (선후관계는 파악 불가)

명목형 순서형 수치형
연산 불가능 연산 불가능 연산 가능
카이제곱 검정 (교차분석) 스피어만 상관계수 피어슨 상관계수

 

 

3) 기초 통계량 추출 및 이해

(1) 중심 경향성의 통계량

- 평균, 중위수(데이터 개수가 짝수이면, 중앙에 두 개 값의 평균), 최빈값(가장 많이 관측)

 

(2) 산포도의 통계량

- 범위, 분산, 표준편차, 변동계수(단위 다른 자료 비교할 때), 사분위수(IQR)

 

(3) 분포의 통계량

왜도 (비대칭성)
첨도 (중심성)
왜도 < 0 : 왼쪽 꼬리, 평균 < 중위수 < 최빈값
왜도 = 0 : 정규분포
왜도 > 0 : 최빈값 < 중위수 < 평균 
왜도 = 3 X (평균 - 최빈중앙) / 표준편차
첨도 < 0 : 평평한 분포
첨도 = 3 : 정규분포
첨도 > 0 : 뾰족한 분포

 

 

4) 시각적 데이터 탐색

히스토그램 막대그래프 박스플롯 산점도

 
- 연속형 변수를
  구간으로 분리
- 구간별 빈도 표시

- 막대넓이는 구간
- 막대가 붙어있음
- 범주형 변수 빈도수,
  연속형 변수 값 비교

- 막대넓이는 의미 X
- 막대가 떨어져 있음
- 이상치 파악에 용이 - 연속형 데이터의
  상관관계 파악

 


2. 고급 데이터 탐색


1) 시공간 데이터 탐색

공간데이터(객체의 위치 및 공간관계 정보 관련 데이터)에 시간 개념을 추가
- 코로플레스 지도=등치지역도(색상), 카토그램=변량비례도(면적 왜곡), 버블플롯맵

 


2) 다변량 데이터 탐색

- 상관분석, 다차원척도법, 주성분분석, 선형판별분석

 


3) 비정형 데이터 탐색

- 텍스트, 이미지(CNN(합성곱신경망))
- XML, JSON, HTML

- HDFS, 맵리듀스, 주키퍼 AVRO, HIVE, PIG, HCatalog

 

 


Part2-3. 통계기법 이해

1. 기술통계

 

1) 데이터 요약

 

2) 표본추출

(1) 자료 속성 및 척도 종류

구분 척도 내용 연산 예시
질적 자료
명목 척도 집단 분류 등호연산 성별
순서 척도 서열/대소관계 비교연산 평점
양적 자료
구간/등간 척도 간격이 의미 등호연산, 비교연산 온도
비율 척도 비율이 의미 사칙연산 (0 존재) 질량

 

(2) 표본추출 기법

단순무작위 추출 계통 추출 층화 추출 군집 추출
- 규칙X, 무작위 추출
- 간편한 방법
- 동일 간격으로 추출 - 계층으로 나누고
  계층별 무작위 추출

- 계층 내 동질적
  계층 간 이질적
- 군집 전체 or 일부
- 계층 내 이질적
  계층 간 동질적

 

 

3) 확률분포

(1) 확률분포함수

① 확률질량함수: 이산확률변수의 확률분포
② 확률밀도함수: 밀도를 함수f(x)로 표시, 면적이 그 확률값

(2) 이산확률분포: 하나씩 셀 수 있는 값

이항분포 포아송분포
- 베르누이(성공or실패) n번 반복 시,
   k번 성공할 확률
- E(X) = np,  V(X) = np(1-p)
- n↑ → 정규분포
- 어떤 사건의 발생 횟수에 대한 확률
- E(X) = λ,  V(X) = λ
- n↑ → 정규분포

 

(3) 연속확률분포: 연속적인 값

정규분포 표준정규분포 t-분포 카이제곱분포 F-분포
- 좌우 대칭
- E(X)=μ
   V(X)=σ²

- σ²↓ → 뾰죡
- Z-분포
- 평균=0,
   분산=1
   정규분포
- Z=(X-μ)/σ
- 두 집단의
   평균비교

- 표본크기 작을때
  표준편차 모를때
- E(X)=0
   V(X)=k/(k-2)
- 오른쪽 긴 꼬리
   (일반적)
- 범주형 자료
- E(X)=k
   V(X)=2k
- 두 집단 간
   분산의 
동일성
   검정에 활용

- F=s₁²/s₂² 

 

 

4) 표본분포

- 모집단(전체), 모수(모집단 정보), 표본(모집단 일부), 통계량(표본 정보), 추정량(모수 추정 통계량)

※ 표본분포의 법칙
① 큰 수의 법칙: n↑ → 분산 = 0
② 중심극한정리: n↑ → 정규분포

 


2. 추론통계

1) 점/구간추정

구분 설명 조건 통계량
추정 모수를 하나의 값으로 추정 ① 불편성
② 효율성
③ 일치성
④ 충족성
① 표본평균
② 표본분산
③ 중위수
④ 최빈값
구간추정 범위로 모수를 추정 ① 추정량 분포에 대한 전제
② 구간안에 모수가 있을 가능성
① 신뢰수준
② 신뢰구간

 

2) 가설검정

(1) 가설의 종류
 귀무가설(H0):
현재까지 주장되어 온 것, 차이가 없음을 나타내는 가설
 대립가설(H1) = 연구가설:
입증하고자 하는 가설

 

(2) 가설검정
검정통계량: 모수를 추론하기 위해 사용되는 표본 통계량 (H0가 참이라는 전제)
p-value: 귀무가설이 참이라는 가정에 따라 표본 데이터를 얻을 확률값
* p-value < 유의수준 → 귀무가설 기각 → 통계적으로 유의
기각역: 대립가설이 참, 받아들이는 확률

 

(3) 가설검정 방법
- 양측검정 , 단측검정

 

(4) 가설검정의 오류

구분 가설 검정 결과
귀무가설 사실 귀무가설 거짓
실제 결과 귀무가설 사실 신뢰수준, 1-α 제 1종 오류, α
귀무가설 거짓 제 2종 오류, β 검정력, 1-β

 

 

※ 자세한 내용은 아래 자료를 참고 부탁드립니다. 

 

[빅데이터분석기사/필기요약] Part2-1. 데이터 전처리

[빅데이 [빅데이터분석기사]의 필기시험 요약자료로 Part2. 빅데이터 탐색의 "Chapter1. 데이터 전처리"입니다. 출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시

dataslog.tistory.com

 

[빅데이터분석기사/필기요약] Part2-2. 데이터 탐색

[빅데이터분석기사]의 필기시험 요약자료로 Part2. 빅데이터 탐색의 "Chapter2. 데이터 탐색"입니다. 출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니

dataslog.tistory.com

 

[빅데이터분석기사/필기요약] Part2-3. 통계기법 이해

[빅데이터분석기사]의 필기시험 요약자료로 Part2. 빅데이터 탐색의 "Chapter3. 통계기법 이해"입니다. 출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍

dataslog.tistory.com

 

728x90
728x90