데이터분석 준전문가(ADsP)

[ADsP] 3-3. 정형 데이터 마이닝(1)

✨️데이터분석가✨️ 2023. 6. 7. 00:32
728x90
728x90

[데이터분석 준전문가, ADsP] 자격증 시험 요약자료로

3과목. 데이터 분석의 "제3장. 정형 데이터 마이닝" 입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!


[목차]
3과목. 데이터 분석
 제3장. 정형 데이터 마이닝
          1. 데이터 마이닝 개요
          2. 분류분석

 

1. 데이터 마이닝 개요

 

1) 데이터마이닝

- 의미 있는 패턴 파악/예측하여 의사결정에 활용하는 방법

 

(1) 분석 방법

지도학습 비지도학습
- 의사결정나무
- 인공신경망
- 회귀분석, 로지스틱 회귀분석
- 최근접 이웃법(KNN)
- OLAP
- 연관성 규칙발견
- 군집분석
- SOM

 

(2) 분석 유형 및 기법

분류규칙 연관규칙 연속규칙 데이터군집화
과거 데이터
특성을 찾아
분류모형으로
결과값을 예측
항목간의 종속관계
찾아내는 작업
연관규칙
+ 시간 정보 포함
유사특성 그룹으로
분할하는  작업
회귀분석, 판별분석,
신경망, 의사결정나무
동시발생 매트릭스 동시발생 매트릭스 K-Means Clusterting

 

(3) 추진 단계

- 목적 설정 → 데이터 준비(확보, 정제) → 가공(변수 정의) → 기법 적용 → 검증

 

(4) 데이터 분할

- 구축용(=훈련용, 모델 만드는데 활용, 30%) / 검정용(추정 조정에 활용, 30%) / 시험용(모델 성능 검증에 활용, 20%)

- 홀드아웃(랜덤하게 두 개의 데이터로 구분) / 교차확인(k-1개 학습용, 나머지 검증용)

 

(5) 성과분석 

구분 예측값
참(P) 거짓(N)
실제값 참(P) TP FN (2종 오류)
거짓(N) FP (1종 오류) TN
정확도(Accuracy) 민감도(Sensitivity) 특이도(Specificity) 정밀도(Precision)
= (TP+TN) /
   (TP+TN+FP+FN)
TP / (TP+FN) TN / (TN+FP) TP / (TP+FP)
- = 재현율(Recall) - -

F1 Score = 2 X { (민감도X정밀도) / (민감도+정밀도) }

 

(6) ROC Curve

- 모형 성능 평가 척도

- AUROC는 ROC곡선 아래 면적으로 1에 가까울수록 모형 성능이 좋음

ROC Curve
ROC Curve

 

(7) 이익도표(Lift chart)

- 분류모형 성능 평가 척도

- 반응률(Response)↓, 향상도(Lift)↑ → 성능 좋은 모델 (향상도의 변동이 심할수록)

 

(8) 과대/과소적합

- 과대적합: 과하게 학습하여 학습데이터의 정확도는 높지만, 다른 데이터의 성능은 떨어지는 현상

- 과소적합: 모형이 단순해 패턴/규칙을 제대로 학습하지 못하는 경우

 

 


2. 분류분석

- 어떤 그룹에 속하는지 예측하는 기법

- 클러스터링과 유사하지만, 각 그룹이 정의되어 있음

- 범주형 속성 값을 예측 (예측분석은 연속형 속성)

 

 

1) 로지스틱 회귀분석

- 설명변수가 반응변수의 각 범주에 속할 확률을 추정,

  추정 확률을 기준치에 따라 분류하는 모형으로 활용

- 모형의 적합을 통해 추정된 확률사후확률이라고 함

- R코드: glm(종속변수 ~ 독립변수1 + ... + 독립변수k, family=binomial, data=데이터셋명)

선형회귀분석 로지스틱 회귀분석
종속변수가 연속형 변수
최소제곱법
F-검정, T-검정
종속변수가 (0,1)
최대우도추정법(MLE)
카이제곱검정

 

 

2) 의사결정나무

- 분류함수를 나무 모양으로 그리는 방법 (시각화)

- 입력값에 대해 출력값을 예측하는 모형

 

 

(1) 활용

- 세분화(그룹 특성 발견), 분류, 예측, 차원축소 및 변수선택, 교호작용효과의 파악

 

(2) 장단점

장점 단점
설명 용이하고 쉽고 빠름
불필요한 변수 있어도 영향 받지 않음
수치형/범주형 모두 가능
정확도 높음
과대적합 가능성 높음
경계부근 자료값은 오차가 큼
중요도 판단 어려움

 

(3) 분석과정

성장단계: 최적의 *분리규칙을 찾아 성장, 적절한 *정지규칙을 만족하면 중단

 * 분리규칙: 불순도 감소량을 가장 크게 하는 분할

 * 정지규칙: 끝마디가 되도록 하는 규칙(깊이, 끝마디의 레코드 수 지정)

가지치기단계: 오차가 높거나 부적절한 추론규칙이 있는 가지를 제거

타당성 평가 단계: 이익도표, 위험도표, 시험자료로 평가

해석 및 예측 단계: 구축된 모형 해석 및 예측에 적용

 

(4) 불순도 측도

카이제곱통계량 지니지수 엔트로피지수
각 셀의 {(실제도수-기대도수)²
/ 기대도수}
노드의 불순도 값
지니지수↑→이질적,순수도↓
무질서 정도 측도
엔트로피지수↑ → 순수도↓

 

(5) 알고리즘

CART C4.5, C5.0 CHAID
최적의 분리 가능 각 마디에서 다지분리 가능
범주의 수만큼 분리 가능
가지치기하지 않고
나무모형 성장 중지함
범주형은 지니지수
연속형은 이진분리
엔트로피지수 카이제곱통계량

 

 

3) 앙상블분석

- 예측모형들을 조합하여 하나의 최종 예측모형 생성

- 안정적인 학습방법은 1-nearest neighbor, 선형회귀모형 / 불안정한 방법은 의사결정나무

배깅 부스팅 랜덤 포레스트
- 붓스트랩 자료 생성하여
  예측모형을 만드는 방법

- 보팅은 다수결에 의해
  최종 결과를 선정하는 과정

- 가지치기하지 않고, 최대로
  성장한 의사결정나무 활용
- 예측력 약한 모형을 결합,
  강한 예측모형을 만드는 방법

- Adaboost는 분류기 n개에
  각각 가중치 설정, 결합하여
  최종 분류기 만드는 방법

- 훈련오차를 빨리 쉽게 줄임
- 배깅보다 성능이 뛰어남
- 더 많은 무작위성을 주어
  약한 학습기들을 생성한 후,
  선형 결합하여
  최종 학습기를 만드는 방법

- 예측력 높음
- 해석 어려움

* 붓스트랩: 단순랜덤 복원추출 방법 활용, 동일 크기 표본을 여러 개 생성하는 샘플링 방법

                     샘플에 한 번도 선택되지 않은 원데이터는 전체 샘플의 36.8% 해당

 

 

4) 인공신경망분석(ANN)

- 뇌를 기반으로 한 추론 모델

- 역전파 알고리즘: 비선형성을 극복한 다계층 퍼셉트론

- 가중치를 반복적으로 조정하며 학습

- 입력링크에서 새로운 활성화 수준을 계산, 출력링크로 출력 신호를 보냄

- 활성화 함수를 이용해 출력을 결정, 입력신호의 가중치 합을 계산하여 임계값과 비교

- 가중치 합 < 임계값 → -1 / 가충치 합 ≥ 임계값 → +1 출력

 

(1) 활성화 함수

시그모이드 함수 softmax함수 Relu함수
로지스틱 회귀분석과 유사
0~1 확률값을 가짐
표준화지수 함수
출력값이 여러개,
목표치가 다범주인 경우
각 범주에 속할 사후확률을
제공하는 함수
입력값 0이하 → 0
입력값 0이상 → x값
딥러닝에서 많이 활용

 

(2) 층 퍼셉트론

- 퍼셉트론은 선형 결합기와 하드 리미터로 구성

- 초평면은 차원 공간을 두 개의 영역으로 나눔

- 초평면을 선형 분리 함수로 정의

 

(3) 적합한 입력변수

범주형 변수 연속형 변수
일정 빈도 이상의 값을 갖고,
각 범주 빈도가 일정

로그변환, 범주화
변수 간의 범위가 큰 차이가 없음
가변수화

 

(4) 가중치

- 가중치=0 → 시그모이드 함수선형, 신경망 모형은 선형모형

- 가중치↑ 비선형모형

 

(5) 학습모드

온라인 학습모드 확률적 학습모드 배치 학습모드
하나씩 신경망에 투입
가중치 추정값이 매번 바뀜
빠름, 비정상성인 경우 좋음
신경망에 투입되는
관측값 순서가 랜덤
전체 자료를 동시
신경망에 투입

 

(6) 은닉층과 은닉노드 수

- 은닉층과 은닉노드가 많으면 → 과대 적합 문제 발생

- 은닉층은 가급적 하나로 선정

- 은닉노드는 적절히 큰 값으로 놓고, 가중치를 감소시키며 적용

 

 

 

위 내용은 [ADsP 데이터분석 준전문가, (주)데이터에듀]를 참고하여 요약한 자료입니다.

 

728x90
728x90