빅데이터 분석기사/필기 요약

[빅데이터분석기사/필기요약] Part4-2. 분석결과 해석 및 활용

✨️데이터분석가✨️ 2023. 4. 6. 19:10
728x90
728x90

[빅데이터분석기사]의 필기시험 요약자료로

Part4. 빅데이터 결과 해석의 "Chapter2. 분석결과 해석 및 활용"입니다.

출제 빈도가 높은 내용 위주로 요약했으니, 이 자료로 공부하시는 모든 분들 합격하시길 바랍니다!

(출처: 2023 빅데이터분석기사 필기 한권완성, 예문에듀)


[목차]
Part4. 빅데이터 결과 해석
 Part4-2. 분석결과 해석 및 활용
             1. 분석결과 해석
                 1) 분석모형 해석
                 2) 비즈니스 기여도 평가
             2. 분석결과 시각화
                 1) 시공간 시각화
                 2) 관계 시각화
                 3) 비교 시각화
                 4) 인포그래픽
             3. 분석결과 활용
                 1) 분석모형 전개
                 2) 분석결과 활용 시나리오 개발
                 3) 분석결과 보고서 작성
                 4) 분석모형 모니터링
                 5) 분석모형 리모델링

1. 분석결과 해석

1) 분석모형 해석

해석 가능한 모형 순열 변수 중요도 부분 의존도 plot
(장점)
: 간단, 직관적,
  학습시간 짧음
(단점)
: 예측 정확도 낮음
: 특정 변수를 제외하고
  어느 정도의 손실을 주는지
  계산해 변수의 중요도 파악

: 대표적인 변수 중요도 방법
: 중요변수를 1~2개 선택 후,
  어떤 영향을 미치는지 확인

: 전역적인(global)
  모형해석방법
* 지역적인(local)
   : SHAP, 개별관측치 해석
예) 선형회귀, 로지스틱 회귀,
       의사결정나무
예) 랜덤포레스트 모형 -

 

 

2) 비즈니스 기여도 평가 

- 최종 모형이 실제 업무에 적용되었을 때, 어떤 개선 효과를 주는지 정량적으로 평가

투자대비 효과 (ROI) 순 효과를 총 비용으로 나눈 값
순현재가치 (NPV) 편익의 현재가치 - 비용의 현재가치
순현재가치 > 0타당성 있는 사업 
내부수익률 (IRR) 순현재가치 = 0으로 만드는 할인율
IRR > 요구수익률투자 적합
총 소유비용 (TCO) 자산 획득 시의 비용 + 제반비용 등 총 비용
투자회수 기간 (PP) 흑자로 돌아서는 시점까지의 기간

 


2. 분석결과 시각화

1) 시각화 분류

데이터 시각화 정보 시각화 정보 디자인
연결과 그룹핑 표현
미적 + 기능성 고려
대규모 비수량 정보 효과적인 정보
복잡하지 않은 기술데이터
예) 마인드맵, 뉴스 표현 예) 분기도, 수지도, 히트맵 예) 데이터 시각화,
정보 시각화, 인포그래픽

 

 

2) 시각화 프로세스

정보 구조화 정보 시각화 정보 시각표현
: 시각화 목표가 될 만한 것을 
  발견/설정하는 단계
: 데이터 munging 과정
: 시각화 도구(툴)
  틀을 만드는 단계
: 그래픽 요소 활용하여
  디자인 완성

 

 

3) 시각화 종류

(1) 시간 시각화

- 시간에 따른 데이터 변화를 보여주는 방법

- x축은 시간, y축은 값

이산형 연속형
막대 그래프 산점도 선 그래프 계단식 그래프 영역차트
범주별 데이터 값 두 변수의 관계 관측치(점)을
선으로 표시
x축과 평행한
으로 연결
그래프 안 영역을
색으로 칠한 형태

 

(2) 공간 시각화

- 지도 위에 표현하는 방법

등치지역도 도트 플롯 맵 버블 플롯 맵 등치선도 카토그램
지리적 단위 기준
색상으로 구분
위도/경도
좌표점
위/경도 좌표점
+ 데이터 값
지리적 위치를
으로 이어
지역 크기를 조정

 

(3) 관계 시각화

- 변수 간 존재하는 연관성이나 분포/패턴을 찾기 위해 사용

산점도 산점도 행렬 버블 차트 히스토그램
두 변수의 관계 다변량 데이터
모든 수치형
변수 간의 산점도
버블 크기/모양으로 표기 도수분포
막대 형태로 표기

 

(4) 비교 시각화

- 여러 변수들의 값을 비교

히트맵 스타차트 채르노프 페이스 평행좌표 그래프
칸 색상으로 표기
행은 관측치,
열은 변수
여러 변수를 각각 축,
중앙으로의 거리를 값
변수 값을
얼굴부위에 대응
y축에 평행
여러 개의 축으로
데이터 표현
관측치/변수↑
→ 부적합
= 레이더 차트
= 방사형 차트

여러관측치 비교 쉬움
관측치 특성
알아보기 쉬움
데이터 패턴
그룹별특성 파악 쉬움

 

(5) 인포그래픽

- 그래픽으로 이해하기 쉽게 표현

- Raw data 취급 X

- 정보형 메시지(지하철 노선도), 설득형 메시지를 포함

 


3. 분석결과 활용

분석모형 전개 분석결과 활용
시나리오 개발
분석결과 
보고서 작성
분석모형
모니터링
분석모형
리모델링
분석결과를 확장
적용하는 단계
분석결과를
업무에 반영
분석결과 기록
개선 필요
시점 파악
새로운 데이터
변수 추가, 
알고리즘 반영
운영 시스템
    구성

②분석모형이
    개발된
    툴/언어

운영요건별로
    다르게 적용
인사이트
    발굴 및 확장

의사결정
    방법 선택

③차트/시각화
    도구 선택
①모니터링 주기
성능측정 항목
재학습
  - 최신 데이터
    주기적인 분석

  - 모니터링 성능
    떨어졌을 때,
    new 모형구축
- 기존모형 분석
②데이터 수집
    및 전처리

③분석모형 구축
최종 분석모형
    선정 및 반영

  - 기존모형 비교
  - 성능평가지표
    (정확도, 재현율)
    활용목적,
    운영시스템 검토

 

728x90
728x90