[빅데이터분석기사] 필기시험을 경험한 후에 요약한 자료입니다.
시험에 나온 문제! 시험에 나올법한 문제! 시험에 나왔으면 하는 문제!
최대한 시험 출제 유형과 유사한 내용들로 요약했으니,
이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!
[목차]
Part2. 빅데이터 탐색
Part2-1. 데이터 전처리
1. 데이터 정제
2. 분석 변수 처리
Part2-2. 데이터 탐색
1. 데이터 탐색 기초
2. 고급 데이터 탐색
Part2-3. 통계기법 이해
1. 기술통계
2. 추론통계
Part2-1. 데이터 전처리
1. 데이터 정제
1) 결측값 처리 (N/A, 빈칸)
(1) 종류
완전 무작위 결측 | 무작위 결측 | 비무작위 결측 |
다른 변수와 연관 없음 결과에 영향을 미치지 않음 |
다른 변수와 연관 있음 결과에 영향을 미치지 않음 |
다른 변수와 연관 있음 결과에 영향을 미침 |
(2) 처리방법
- 단순 대치법
① 완전 분석법: 완전한 자료만 사용 → 시간단축 but, 결과의 타당성 문제
② 평균 대치법: 통계량으로 대체 → 결측값의 발생이 다른 변수와 관련성 있는 경우 유용
③ 단순 확률 대치법: 적절한 확률값 부여 후 대체 → 과소추정 문제 보완
- 핫덱(Hot-Deck): 비슷한 성향을 가진 응답자 값으로 대체
- 콜드덱(Cold-Deck): 외부 출처나 다른 설문조사 값으로 대체
- 혼합 - 다중 대치법
- 단순 대치법을 여러 번 수행하여 결측값이 대체된 여러 개의 데이터를 생성한 뒤 통계 분석
2) 이상값 처리
(1) 검출방법
- 통계 지표 활용
- ESD, 기하평균, 사분위수 - 시각화 활용
- 히스토그램, 밀도차트, 상자그림 - 고급 통계 기법 활용
① 비지도 학습
- K-Means(평균) 클러스터링으로 k개의 군집으로 묶고 군집으로 정의되지 않은 영역을 이상값으로 검출
② 마할라노비스 거리
- 평균으로부터 벗어난 정도로 이상값 검출
③ LOF
- 관측치 주변 밀도의 상대적인 비교를 통해 이상값 검출
④ Iforest
- 의사결정나무를 이용하여 분할 횟수로 이상값 검출
(2) 처리방법
- 삭제(양극단 값 절단), 대체(상한/하한값, 평균/중위수 등), 변환(자연로그)
2. 분석 변수 처리
1) 변수 선택
(1) 변수 유형
① 독립 변수(x) = 원인/예측 변수
② 종속 변수(y) = 반응/결과 변수
→ 인과관계
(2) 변수 선택
- 관련성 높은 독립변수 선택
- 모델 단순화 → 모델링 시간 단축 및 과적합↓ → 정확도 ↑
① 필터 기법: 통계적 특성으로 상관관계 탐색 후 변수 선택 (모델링 X)
② 래퍼 기법: 변수의 일부만 모델링에 사용, 하위 집합을 반복하여 변수 선택
# 변수 선택 알고리즘 유형
- 전진 선택법: 하나씩 추가
- 후진 선택법: 하나씩 제거
- 단계적 방법: 전진 + 후진 선택법
③ 임베디드 기법: 모델 자체에 변수 선택 포함, 최적의 변수 선택
예) 라쏘, 릿지, 엘라스틱 넷, SelectFromModel
※ 모형 적합도를 나타내는 통계지표
- F-값 ↑- R² = 1- AIC ↓
2) 차원축소
- 독립변수 간 강한 상관관계 → 다중공선성 발생 → 모델의 정확도/신뢰성↓ → 차원축소 활용
① 주성분분석(PCA)
- 대표하는 차원의 주성분을 생성하여 전체 변동을 설명
- N x N 정방행렬
- 고차원 → 저차원 데이터로 변환
→ 상호 직교하는 성격의 알고리즘
② 선형판별분석(LDA)
- 집단 구분을 예측하는데 활용
- 정규분포를 따른다는 가정하에 진행
③ 특이값 분해(SVD)
- PCA와 유사한 행렬 분해 기법
- 단, 행과 열의 크기가 다른 M x N 행렬 데이터 적용
④ 요인 분석(Factor Analysis)
- 잠재변수 존재 시, 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법
- 유사변수들끼리 묶어주는 방법
⑤ 독립성분 분석(ICA)
- 독립적인 하부성분으로 분리하여 차원을 축소
- 비정규분포를 따름
⑥ 다차원 척도법(MDS)
- 개체들간의 유사성/비유사성 측정 → 개체들의 집단화를 시각적으로 표현
- 유클리드 거리를 주로 활용
3) 파생변수 (다시 정의한 변수)
- 대표성 및 논리적 타당성 필요
4) 변수 변환 방법
① 로그/지수 변환
- 한쪽으로 치우친 변수를 로그/지수로 변환하여 기울어짐을 감소시킴
② 비닝
- 데이터 평활화에서 사용
- 연속형 → 범주형 데이터
③ 더미변수화
- 값이 있으면 1, 없으면 0
- 범주형 → 연속형 데이터
④ 스케일링
- 특정 구간을 바꾸는 척도법
- 예) 최소-최대 정규화, Z-score 정구화
⑤ Box-Cox 변환
- 정규분포에 가깝게 만들거나, 분산 안정화하는 방법
- 역변환 및 제곱근변환을 적용
⑥ 구간나누기
- 클러스터링(타깃변수 설정 X)
- 의사결정나무(타깃변수 설정 O)
5) 불균형 데이터 처리 (데이터 양에 불균형)
① 과소표집: 무작위로 일부만 선택, 중요데이터 소실
② 과대표집: 무작위로 복사, 중복데이터 과적합
③ SMOTE: 주변 값 기준으로 새로운 데이터 생성
Part2-2. 데이터 탐색
1. 데이터 탐색 기초
1) 데이터 탐색 개요
(1) 탐색적 데이터 분석(EDA)
- 저항성(결측값/이상값에 영향 적음), 잔차 해석, 자료 재표현, 현시성(시각화)
(2) 개별 데이터 탐색
구분 | 데이터 유형 | 통계량 | 데이터분포 특성 파악 | 시각화 |
범주형 | 질적 명목형/순서형 |
빈도수, 최빈값, 비율, 백분율 |
중심성, 변동성 | 막대형 그래프 |
수치형 | 양적 이산형/연속형 |
평균, 분산, 표준편차, 첨도, 왜도 |
정규성 | 박스 플롯, 히스토그램 |
(3) 다차원 데이터 탐색
구분 | 탐색 방법 | 분석 | 시각화 |
범주형 - 범주형 조합 | 빈도수, 비율 | 연관성 분석 | 막대형 그래프 |
수치형 - 수치형 조합 | 산점도, 기울기 | 상관성 분석 피어슨상관계수로 관계 방향/강도 파악 |
산점도 |
범주형 - 수치형 조합 | - | 그룹 간의 기술통계량 차이 비교 | 박스 플롯 |
2) 상관관계 분석
- 상호 연관성의 존재/강도 측정 (선후관계는 파악 불가)
명목형 | 순서형 | 수치형 |
연산 불가능 | 연산 불가능 | 연산 가능 |
카이제곱 검정 (교차분석) | 스피어만 상관계수 | 피어슨 상관계수 |
3) 기초 통계량 추출 및 이해
(1) 중심 경향성의 통계량
- 평균, 중위수(데이터 개수가 짝수이면, 중앙에 두 개 값의 평균), 최빈값(가장 많이 관측)
(2) 산포도의 통계량
- 범위, 분산, 표준편차, 변동계수(단위 다른 자료 비교할 때), 사분위수(IQR)
(3) 분포의 통계량
왜도 (비대칭성) |
첨도 (중심성) |
왜도 < 0 : 왼쪽 꼬리, 평균 < 중위수 < 최빈값 왜도 = 0 : 정규분포 왜도 > 0 : 최빈값 < 중위수 < 평균 왜도 = 3 X (평균 - 최빈중앙) / 표준편차 |
첨도 < 0 : 평평한 분포 첨도 = 3 : 정규분포 첨도 > 0 : 뾰족한 분포 |
4) 시각적 데이터 탐색
히스토그램 | 막대그래프 | 박스플롯 | 산점도 |
- 연속형 변수를 구간으로 분리 - 구간별 빈도 표시 - 막대넓이는 구간 - 막대가 붙어있음 |
- 범주형 변수 빈도수, 연속형 변수 값 비교 - 막대넓이는 의미 X - 막대가 떨어져 있음 |
- 이상치 파악에 용이 | - 연속형 데이터의 상관관계 파악 |
2. 고급 데이터 탐색
1) 시공간 데이터 탐색
- 공간데이터(객체의 위치 및 공간관계 정보 관련 데이터)에 시간 개념을 추가
- 코로플레스 지도=등치지역도(색상), 카토그램=변량비례도(면적 왜곡), 버블플롯맵
2) 다변량 데이터 탐색
- 상관분석, 다차원척도법, 주성분분석, 선형판별분석
3) 비정형 데이터 탐색
- 텍스트, 이미지(CNN(합성곱신경망))
- XML, JSON, HTML
- HDFS, 맵리듀스, 주키퍼 AVRO, HIVE, PIG, HCatalog
Part2-3. 통계기법 이해
1. 기술통계
1) 데이터 요약
2) 표본추출
(1) 자료 속성 및 척도 종류
구분 | 척도 | 내용 | 연산 | 예시 |
질적 자료 |
명목 척도 | 집단 분류 | 등호연산 | 성별 |
순서 척도 | 서열/대소관계 | 비교연산 | 평점 | |
양적 자료 |
구간/등간 척도 | 간격이 의미 | 등호연산, 비교연산 | 온도 |
비율 척도 | 비율이 의미 | 사칙연산 (0 존재) | 질량 |
(2) 표본추출 기법
단순무작위 추출 | 계통 추출 | 층화 추출 | 군집 추출 |
- 규칙X, 무작위 추출 - 간편한 방법 |
- 동일 간격으로 추출 | - 계층으로 나누고 계층별 무작위 추출 - 계층 내 동질적 계층 간 이질적 |
- 군집 전체 or 일부 - 계층 내 이질적 계층 간 동질적 |
3) 확률분포
(1) 확률분포함수
① 확률질량함수: 이산확률변수의 확률분포
② 확률밀도함수: 밀도를 함수f(x)로 표시, 면적이 그 확률값
(2) 이산확률분포: 하나씩 셀 수 있는 값
이항분포 | 포아송분포 |
- 베르누이(성공or실패) n번 반복 시, k번 성공할 확률 - E(X) = np, V(X) = np(1-p) - n↑ → 정규분포 |
- 어떤 사건의 발생 횟수에 대한 확률 - E(X) = λ, V(X) = λ - n↑ → 정규분포 |
(3) 연속확률분포: 연속적인 값
정규분포 | 표준정규분포 | t-분포 | 카이제곱분포 | F-분포 |
- 좌우 대칭 - E(X)=μ V(X)=σ² - σ²↓ → 뾰죡 |
- Z-분포 - 평균=0, 분산=1인 정규분포 - Z=(X-μ)/σ |
- 두 집단의 평균비교 - 표본크기 작을때 표준편차 모를때 - E(X)=0 V(X)=k/(k-2) |
- 오른쪽 긴 꼬리 (일반적) - 범주형 자료 - E(X)=k V(X)=2k |
- 두 집단 간 분산의 동일성 검정에 활용 - F=s₁²/s₂² |
4) 표본분포
- 모집단(전체), 모수(모집단 정보), 표본(모집단 일부), 통계량(표본 정보), 추정량(모수 추정 통계량)
※ 표본분포의 법칙
① 큰 수의 법칙: n↑ → 분산 = 0
② 중심극한정리: n↑ → 정규분포
2. 추론통계
1) 점/구간추정
구분 | 설명 | 조건 | 통계량 |
점추정 | 모수를 하나의 값으로 추정 | ① 불편성 ② 효율성 ③ 일치성 ④ 충족성 |
① 표본평균 ② 표본분산 ③ 중위수 ④ 최빈값 |
구간추정 | 범위로 모수를 추정 | ① 추정량 분포에 대한 전제 ② 구간안에 모수가 있을 가능성 |
① 신뢰수준 ② 신뢰구간 |
2) 가설검정
(1) 가설의 종류
① 귀무가설(H0): 현재까지 주장되어 온 것, 차이가 없음을 나타내는 가설
② 대립가설(H1) = 연구가설: 입증하고자 하는 가설
(2) 가설검정
- 검정통계량: 모수를 추론하기 위해 사용되는 표본 통계량 (H0가 참이라는 전제)
- p-value: 귀무가설이 참이라는 가정에 따라 표본 데이터를 얻을 확률값
* p-value < 유의수준 → 귀무가설 기각 → 통계적으로 유의
- 기각역: 대립가설이 참, 받아들이는 확률
(3) 가설검정 방법
- 양측검정 , 단측검정
(4) 가설검정의 오류
구분 | 가설 검정 결과 | ||
귀무가설 사실 | 귀무가설 거짓 | ||
실제 결과 | 귀무가설 사실 | 신뢰수준, 1-α | 제 1종 오류, α |
귀무가설 거짓 | 제 2종 오류, β | 검정력, 1-β |
※ 자세한 내용은 아래 자료를 참고 부탁드립니다.
'빅데이터 분석기사 > 필기 요약' 카테고리의 다른 글
[빅데이터분석기사/필기요약] Part4. 빅데이터 결과 해석 (2) | 2023.04.19 |
---|---|
[빅데이터분석기사/필기요약] Part3.빅데이터 모델링 (0) | 2023.04.18 |
[빅데이터분석기사/필기요약] Part1.빅데이터 분석기획 (0) | 2023.04.16 |
[빅데이터분석기사/필기후기] 제6회 필기시험 후기(기출문제) (0) | 2023.04.09 |
[빅데이터분석기사/필기요약] Part4-2. 분석결과 해석 및 활용 (0) | 2023.04.06 |