빅데이터 분석기사/필기 요약

[빅데이터분석기사/필기요약] Part2-1. 데이터 전처리

✨️데이터분석가✨️ 2023. 3. 23. 22:22
728x90
728x90

[빅데이

[빅데이터분석기사]의 필기시험 요약자료로
Part2. 빅데이터 탐색의 "Chapter1. 데이터 전처리"입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)


[목차]
Part2. 빅데이터 탐색
 Part2-1. 데이터 전처리
           1. 데이터 정제
              1) 결측값 처리
              2) 이상값 처리
           2. 분석 변수 처리
              1) 변수 선택
              2) 차원축소
              3) 파생변수 생성
              4) 변수 변환
              5) 불균형 데이터 처리

1. 데이터 정제

1) 결측값 처리 (N/A, 빈칸)

- 누락된 값 → 제거 or 통계량으로 대체

 

(1) 종류

구분 다른 변수와의 연관성 결과에 영향 여부
완전 무작위 결측 무관함 결과에 영향을 미치지 않음
무작위 결측 연관 있음 결과에 영향을 미치지 않음
비무작위 결측 연관 있음 결과에 영향을 미침

 

(2) 처리방법

  • 단순 대치법
    ① 완전 분석법완전한 자료만 사용  시간단축 but, 결과의 타당성 문제
     평균 대치법통계량로 대체  → 결측값의 발생이 다른 변수와 관련성 있는 경우 유용
    ③ 단순 확률 대치법: 적절한 확률값 부여 후 대체  → 과소추정 문제 보완
      - 핫덱(Hot-Deck): 비슷한 성향을 가진 응답자 값으로 대체
      - 콜드덱(Cold-Deck): 외부 출처나 다른 설문조사 값으로 대체
      - 혼합
  • 다중 대치법 
    - 단순 대치법을 여러 번 수행하여 결측값이 대체된 여러 개의 데이터를 생성한 뒤 통계 분석

 

 

2) 이상값 처리

- 범위를 벗어난 값, 측정/입력 오류로 발생 → 상한/하한값으로 대체

 

(1) 검출방법

  • 통계 지표 활용
    ESD: 평균으로부터 표준편차X3 만큼 떨어진 값
    기하평균: 기하평균으로부터 표준편차X2.5만큼 떨어진 값 (성장률 계산 시 활용)
    사분위수: 사분위 범위 이상 떨어진 값
  • 시각화 활용
    히스토그램
    밀도차트
    ③ 상자그림
  • 고급 통계 기법 활용
    비지도 학습
      - K-Means(평균) 클러스터링으로 k개의 군집으로 묶고 군집으로 정의되지 않은 영역을 이상값으로 검출

    마할라노비스 거리
      - 평균으로부터 벗어난 정도로 이상값 검출
      - 평균과의 거리가 표준편차의 몇 배인지에 대한 값

    LOF
      - 관측치 주변 밀도의 상대적인 비교를 통해 이상값 검출
      - 밀집된 군집은 조금만 떨어져 있어도 이상치로 나옴

    Iforest
      - 의사결정나무를 이용하여 분할 횟수로 이상값 검출
      - 거리나 밀도에 의존 X

 

(2) 처리방법

삭제: 양극단 값을 절단, 제거보다는 설명력이 높음

대체: 상한/하한값, 평균/중위수 등으로 대체

변환: 자연로그를 취해 값을 감소시켜 실제값을 변형

 

 


2. 분석 변수 처리

1) 변수 선택

(1) 변수 유형

독립 변수(x) = 원인/예측 변수

종속 변수(y) = 반응/결과 변수

→ 인과관계

 

(2) 변수 선택

- 관련성 높은 독립변수 선택

- 모델 단순화 → 모델링 시간 단축 및 과적합↓ → 정확도 ↑

필터 기법: 통계적 특성으로 상관관계 탐색 후 변수 선택 (모델링 X)

래퍼 기법: 변수의 일부만 모델링에 사용, 하위 집합을 반복하여 변수 선택

  # 변수 선택 알고리즘 유형
  - 전진 선택법: 하나씩 추가
  - 후진 선택법: 하나씩 제거
  - 단계적 방법: 전진 + 후진 선택법
임베디드 기법: 모델 자체에 변수 선택 포함, 최적의 변수 선택
예) 라쏘, 릿지, 엘라스틱 넷, SelectFromModel

 

모형 적합도를 나타내는 통계지표

- F-값 ↑- R² = 1- AIC ↓

 

 

2) 차원축소

- 독립변수 간 강한 상관관계 → 다중공선성 발생 → 모델의 정확도/신뢰성↓ → 차원축소 활용

- 주제/개념 추출, 비정형데이터에서 패턴 추출, 성능개선 등에 활용

주성분분석(PCA)
- 대표하는 차원의 주성분을 생성하여 전체 변동을 설명

- N x N 정방행렬

- 데이터를 최적으로 표현

- 고차원 → 저차원 데이터로 변환

- 1번째 주성분: 분산이 가장 높은 축

- 2번째 주성분: 그 다음으로 높은 축

상호 직교하는 성격의 알고리즘
선형 판별 분석(LDA)

- 독립변수(정량적 자료)를 이용하여 종속변수(명목형 자료)의 집단 구분을 예측하는데 활용

- 데이터를 최적으로 분류
특이값 분해(SVD)

- PCA와 유사한 행렬 분해 기법
- 단, 행과 열의 크기가 다른 M x N 행렬 데이터 적용
요인 분석(Factor Analysis)

- 잠재변수 존재 시, 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법

- 유사변수들끼리 묶어주는 방법
독립성분 분석(ICA)

- 독립적인 하부성분으로 분리하여 차원을 축소

- 차원들 간의 관계를 독립적으로 변환시키는 방법

- 비정규분포를 따름

다차원 척도법(MDS)

- 데이터에 내재된 구조를 찾아내어 자료를 함축적으로 표현

- 개체들간의 유사성/비유사성 측정 → 개체들의 집단화를 시각적으로 표현

 

 

3) 파생변수 (다시 정의한 변수)

- 변수 분해/변수 결합/조건문 등으로 생성
- 대표성 및 논리적 타당성 필요

 

 

4) 변수 변환 방법

① 로그/지수 변환
  - 한쪽으로 치우친 변수를 로그/지수로 변환하여 기울어짐을 감소시킴
② 비닝
  - 데이터 평활화에서 사용
  - 연속형 → 범주형 데이터
③ 더미변수화
  - 값이 있으면 1, 없으면 0
  - 범주형 → 연속형 데이터
④ 스케일링
  - 특정 구간을 바꾸는 척도법
  - 예) 최소-최대 정규화, Z-score 정구화
⑤ Box-Cox 변환
  - 정규분포에 가깝게 만들거나, 분산 안정화하는 방법
  - 역변환 및 제곱근변환을 적용
⑥ 구간나누기
  - 클러스터링(타깃변수 설정 X)
  - 의사결정나무(타깃변수 설정 O)

 

 

5) 불균형 데이터 처리

- 데이터 양에 큰 차이가 있는 경우

① 과소표집: 무작위로 일부만 선택
  - (단점) 중요데이터 소실
② 과대표집: 무작위로 복사
  - (단점) 중복데이터 과대, 과적합
  - 과소표집보다는 성능이 좋아 주로 이용
③ SMOTE: 주변 값 기준으로 새로운 데이터 생성
  - 과소/과대표집을 보완함

 

728x90
728x90