[데이터분석 준전문가, ADsP] 자격증 시험 요약자료로
3과목. 데이터 분석의 "제3장. 정형 데이터 마이닝" 입니다.
출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
[목차]
3과목. 데이터 분석
제3장. 정형 데이터 마이닝
1. 데이터 마이닝 개요
2. 분류분석
1. 데이터 마이닝 개요
1) 데이터마이닝
- 의미 있는 패턴 파악/예측하여 의사결정에 활용하는 방법
(1) 분석 방법
지도학습 | 비지도학습 |
- 의사결정나무 - 인공신경망 - 회귀분석, 로지스틱 회귀분석 - 최근접 이웃법(KNN) |
- OLAP - 연관성 규칙발견 - 군집분석 - SOM |
(2) 분석 유형 및 기법
분류규칙 | 연관규칙 | 연속규칙 | 데이터군집화 |
과거 데이터로 특성을 찾아 분류모형으로 결과값을 예측 |
항목간의 종속관계를 찾아내는 작업 |
연관규칙 + 시간 정보 포함 |
유사특성 그룹으로 분할하는 작업 |
회귀분석, 판별분석, 신경망, 의사결정나무 |
동시발생 매트릭스 | 동시발생 매트릭스 | K-Means Clusterting |
(3) 추진 단계
- 목적 설정 → 데이터 준비(확보, 정제) → 가공(변수 정의) → 기법 적용 → 검증
(4) 데이터 분할
- 구축용(=훈련용, 모델 만드는데 활용, 30%) / 검정용(추정 조정에 활용, 30%) / 시험용(모델 성능 검증에 활용, 20%)
- 홀드아웃(랜덤하게 두 개의 데이터로 구분) / 교차확인(k-1개 학습용, 나머지 검증용)
(5) 성과분석
구분 | 예측값 | ||
참(P) | 거짓(N) | ||
실제값 | 참(P) | TP | FN (2종 오류) |
거짓(N) | FP (1종 오류) | TN |
정확도(Accuracy) | 민감도(Sensitivity) | 특이도(Specificity) | 정밀도(Precision) |
= (TP+TN) / (TP+TN+FP+FN) |
= TP / (TP+FN) | = TN / (TN+FP) | = TP / (TP+FP) |
- | = 재현율(Recall) | - | - |
- F1 Score = 2 X { (민감도X정밀도) / (민감도+정밀도) }
(6) ROC Curve
- 모형 성능 평가 척도
- AUROC는 ROC곡선 아래 면적으로 1에 가까울수록 모형 성능이 좋음
(7) 이익도표(Lift chart)
- 분류모형 성능 평가 척도
- 반응률(Response)↓, 향상도(Lift)↑ → 성능 좋은 모델 (향상도의 변동이 심할수록)
(8) 과대/과소적합
- 과대적합: 과하게 학습하여 학습데이터의 정확도는 높지만, 다른 데이터의 성능은 떨어지는 현상
- 과소적합: 모형이 단순해 패턴/규칙을 제대로 학습하지 못하는 경우
2. 분류분석
- 어떤 그룹에 속하는지 예측하는 기법
- 클러스터링과 유사하지만, 각 그룹이 정의되어 있음
- 범주형 속성 값을 예측 (예측분석은 연속형 속성)
1) 로지스틱 회귀분석
- 설명변수가 반응변수의 각 범주에 속할 확률을 추정,
추정 확률을 기준치에 따라 분류하는 모형으로 활용
- 모형의 적합을 통해 추정된 확률을 사후확률이라고 함
- R코드: glm(종속변수 ~ 독립변수1 + ... + 독립변수k, family=binomial, data=데이터셋명)
선형회귀분석 | 로지스틱 회귀분석 |
종속변수가 연속형 변수 최소제곱법 F-검정, T-검정 |
종속변수가 (0,1) 최대우도추정법(MLE) 카이제곱검정 |
2) 의사결정나무
- 분류함수를 나무 모양으로 그리는 방법 (시각화)
- 입력값에 대해 출력값을 예측하는 모형
(1) 활용
- 세분화(그룹 특성 발견), 분류, 예측, 차원축소 및 변수선택, 교호작용효과의 파악
(2) 장단점
장점 | 단점 |
설명 용이하고 쉽고 빠름 불필요한 변수 있어도 영향 받지 않음 수치형/범주형 모두 가능 정확도 높음 |
과대적합 가능성 높음 경계부근 자료값은 오차가 큼 중요도 판단 어려움 |
(3) 분석과정
① 성장단계: 최적의 *분리규칙을 찾아 성장, 적절한 *정지규칙을 만족하면 중단
* 분리규칙: 불순도 감소량을 가장 크게 하는 분할
* 정지규칙: 끝마디가 되도록 하는 규칙(깊이, 끝마디의 레코드 수 지정)
② 가지치기단계: 오차가 높거나 부적절한 추론규칙이 있는 가지를 제거
③ 타당성 평가 단계: 이익도표, 위험도표, 시험자료로 평가
④ 해석 및 예측 단계: 구축된 모형 해석 및 예측에 적용
(4) 불순도 측도
카이제곱통계량 | 지니지수 | 엔트로피지수 |
각 셀의 {(실제도수-기대도수)² / 기대도수} |
노드의 불순도 값 지니지수↑→이질적,순수도↓ |
무질서 정도 측도 엔트로피지수↑ → 순수도↓ |
(5) 알고리즘
CART | C4.5, C5.0 | CHAID |
최적의 분리 가능 | 각 마디에서 다지분리 가능 범주의 수만큼 분리 가능 |
가지치기하지 않고 나무모형 성장 중지함 |
범주형은 지니지수 연속형은 이진분리 |
엔트로피지수 | 카이제곱통계량 |
3) 앙상블분석
- 예측모형들을 조합하여 하나의 최종 예측모형 생성
- 안정적인 학습방법은 1-nearest neighbor, 선형회귀모형 / 불안정한 방법은 의사결정나무
배깅 | 부스팅 | 랜덤 포레스트 |
- 붓스트랩 자료 생성하여 예측모형을 만드는 방법 - 보팅은 다수결에 의해 최종 결과를 선정하는 과정 - 가지치기하지 않고, 최대로 성장한 의사결정나무 활용 |
- 예측력 약한 모형을 결합, 강한 예측모형을 만드는 방법 - Adaboost는 분류기 n개에 각각 가중치 설정, 결합하여 최종 분류기 만드는 방법 - 훈련오차를 빨리 쉽게 줄임 - 배깅보다 성능이 뛰어남 |
- 더 많은 무작위성을 주어 약한 학습기들을 생성한 후, 선형 결합하여 최종 학습기를 만드는 방법 - 예측력 높음 - 해석 어려움 |
* 붓스트랩: 단순랜덤 복원추출 방법 활용, 동일 크기 표본을 여러 개 생성하는 샘플링 방법
샘플에 한 번도 선택되지 않은 원데이터는 전체 샘플의 36.8% 해당
4) 인공신경망분석(ANN)
- 뇌를 기반으로 한 추론 모델
- 역전파 알고리즘: 비선형성을 극복한 다계층 퍼셉트론
- 가중치를 반복적으로 조정하며 학습
- 입력링크에서 새로운 활성화 수준을 계산, 출력링크로 출력 신호를 보냄
- 활성화 함수를 이용해 출력을 결정, 입력신호의 가중치 합을 계산하여 임계값과 비교
- 가중치 합 < 임계값 → -1 / 가충치 합 ≥ 임계값 → +1 출력
(1) 활성화 함수
시그모이드 함수 | softmax함수 | Relu함수 |
로지스틱 회귀분석과 유사 0~1 확률값을 가짐 |
표준화지수 함수 출력값이 여러개, 목표치가 다범주인 경우 각 범주에 속할 사후확률을 제공하는 함수 |
입력값 0이하 → 0 입력값 0이상 → x값 딥러닝에서 많이 활용 |
(2) 단층 퍼셉트론
- 퍼셉트론은 선형 결합기와 하드 리미터로 구성
- 초평면은 차원 공간을 두 개의 영역으로 나눔
- 초평면을 선형 분리 함수로 정의
(3) 적합한 입력변수
범주형 변수 | 연속형 변수 |
일정 빈도 이상의 값을 갖고, 각 범주 빈도가 일정 로그변환, 범주화 |
변수 간의 범위가 큰 차이가 없음 가변수화 |
(4) 가중치
- 가중치=0 → 시그모이드 함수는 선형, 신경망 모형은 선형모형
- 가중치↑ → 비선형모형
(5) 학습모드
온라인 학습모드 | 확률적 학습모드 | 배치 학습모드 |
하나씩 신경망에 투입 가중치 추정값이 매번 바뀜 빠름, 비정상성인 경우 좋음 |
신경망에 투입되는 관측값 순서가 랜덤 |
전체 자료를 동시에 신경망에 투입 |
(6) 은닉층과 은닉노드 수
- 은닉층과 은닉노드가 많으면 → 과대 적합 문제 발생
- 은닉층은 가급적 하나로 선정
- 은닉노드는 적절히 큰 값으로 놓고, 가중치를 감소시키며 적용
위 내용은 [ADsP 데이터분석 준전문가, (주)데이터에듀]를 참고하여 요약한 자료입니다.
'데이터분석 준전문가(ADsP)' 카테고리의 다른 글
[ADsP] 3-3. 정형 데이터 마이닝(2) (0) | 2023.06.24 |
---|---|
[ADsP] 3-2. 통계분석(2) (0) | 2023.05.24 |
[ADsP] 3-2. 통계분석(1) (0) | 2023.05.23 |
[ADsP] 3-1. R 기초와 데이터 마트 (2) | 2023.05.22 |
[ADsP] 2-2. 분석 마스터 플랜 (0) | 2023.05.21 |