혼공학습단/혼자 공부하는 데이터 분석 with 파이썬

[혼공분석] #1. 데이터 분석을 시작하며

✨️데이터분석가✨️ 2024. 1. 5. 08:00
728x90
728x90
1. 데이터 분석을 시작하며
    1) 데이터 분석이란
    2) 구글 코랩과 주피터 노트북
    3) 이 도서가 얼마나 인기가 좋을까요?

 

1) 데이터 분석이란

(1) '데이터 분석' 및 '데이터 과학'

데이터 분석 데이터 과학
유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링하는 과정 통계학, 데이터 분석, 머신러닝, 데이터 마이닝 등을 아우르는 큰 개념
의사결정을 돕기 위한 통찰을 제공 문제해결을 위한 솔루션을 제공

 

 

(2) 데이터 분석가

- 프로그래밍 기술, 수학/통계, 도메인 지식을 모두 갖춰야 함

- 도메인 지식은 갖추기 어려워 해당 분야의 전문가 도움을 받기도 함

- 작업 과정은 (좁은 의미) 기술통계, 탐색적 데이터 분석, 가설검정, (넓은 의미) 데이터 수집/처리/정제, 모델링을 포함함

 

 

(3) 데이터 분석 도구

- R: 통계 패키지 多

- 파이썬: 범용 프로그래밍 언어, 오픈소스

파이썬 패키지(라이브러리)
넘파이 판다스 맷플롯립 사이파이 사이킷런
다차원 배열 엑셀 시트 시각화 통계 분석 머신러닝

 

 

 


2) 구글 코랩과 주피터 노트북

구글 코랩 주피터 노트북
설치 불필요 (클라우드 기반) 설치 필요
온라인 웹 브라우저 오프라인 웹 브라우저
구글 드라이브에 저장 하드 디스크에 저장

 

 

(1) 구글 코랩

- 웹 브라우저에서 무료로 파이썬 프로그램을 이용할 수 있는 온라인 에디터

- 코랩의 프로그램 파일을 노트북이라고 함

- http://colab.research.google.com

 

Google Colaboratory

 

colab.research.google.com

 

① 셀

텍스트 셀 코드 셀
자유롭게 사용 가능 (HTML, 마크다운 혼용) 파이썬 코드 입력 및 실행
편집: Enter or 해당 셀 클릭
수정 완료: ESC or 다른 셀 클릭
실행: Ctrl + Enter
실행 후 다음 셀 이동: Shift + Enter
실행 후 다음 셀 추가: Alt + Enter

 

② 노트북

- 생성: 파일 - 새 노트 

- 저장(구글 드라이브): 파일 - 저장, Ctrl + S

- 저장(하드 디스크): 파일 - 다운로드

- 열기: 파일 - 노트 열기

 

(참고) 이 책의 모든 코드는 깃허브에 저장됨 https://github.com/rickiepark/hg-da

 

 

 


3) 이 도서가 얼마나 인기가 좋을까요?

(1) 도서 판매량 데이터 찾기

- 공공데이터포털

- 네이버검색(도서관 대출 데이터) → 도서관 정보나루

- 데이터 과학 관련 온라인 포럼

 

 

 

(2) 데이터 확인하기 - open() 함수

 

① 코랩에 데이터 다운: gdown 패키지

- gdown 패키지: 웹에서 대용량 파일을 다운로드 할 수 있는 패키지

import gdown
gdown.download('https://bit.ly/3eecMKZ', '남산도서관 장서 대출목록 (2021년 04월).csv', quiet=False)

 

 

② csv 파일 출력하기: open() 함수

- with문으로 파일을 열고, open() 함수로 읽고, readline() 메서드로 한 줄 출력

- 인코딩 형식을 'EUC-KR' 한글로 지정

with open('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC_KR') as f:
  print(f.readline())
  print(f.readline())
 

번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,
"1","인공지능과 흙","김동훈 지음","민음사","2021","9788937444319","","","","","1","0","2021-03-19",

 

 

 

(3) 데이터 확인하기 - 판다스

- 판다스는 csv 파일을 읽어 데이터프레임(행X열) 형태로 저장함

 

① csv 파일 읽기: read_csv() 함수

- as 키워드로 패키기 이름을 pd로 줄임

- read_csv() 함수: 판다스에서 csv 파일을 읽을 때 사용함

- 동일 열 내 데이터 타입이 다를 경우, 오류가 발생함

  → low_memory=False로 지정하여 파일을 한 번에 읽음

- head() 메서드:  처음 다섯 개 행을 출력함

import pandas as pd
df = pd.read_csv('남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR', low_memory=False)
df.head()

 

 

② csv 파일로 저장: to_csv() 메서드

- to_csv() 메서드: csv 파일로 저장할 때 사용함

- UTF-8 형식으로 저장되어, 파일 읽을 때 인코딩 형식을 지정하지 않아도 됨

- 'ns_201404' 파일명으로 저장하고, 3줄 출력함

df.to_csv('ns_201404.csv')
with open('ns_201404.csv') as n:
  for i in range(3):
    print(n.readline(), end='')
 
,번호,도서명,저자,출판사,발행년도,ISBN,세트 ISBN,부가기호,권,주제분류번호,도서권수,대출건수,등록일자,Unnamed: 13 0,1,인공지능과 흙,김동훈 지음,민음사,2021,9788937444319,,,,,1,0,2021-03-19,
1,2,가짜 행복 권하는 사회,김태형 지음,갈매나무,2021,9791190123969,,,,,1,0,2021-03-19,

 

 

 

 


1주차 미션
1주차 미션

 

1주차. 기본 미션

p81. 확인 문제 4번 풀고 인증하기

 

문4. 판다스 read_csv() 함수의 매개변수 설명이 옳은 것은 무엇인가요?

① header 매개변수의 기본값을 1로 CSV 파일의 첫 번째 행을 이름으로 사용합니다. → 기본값은 'infer'

② names 매개변수에 이름을 리스트로 지정할 수 있습니다. → 열

③ encoding 매개변수에 CSV 파일의 인코딩 방식을 지정할 수 있습니다.

④ dtype 매개변수를 사용하려면 모든 열의 데이터 타입을 지정해야 합니다. → 필요한 열

 

→ 정답 ③

- header 매개변수: 열 이름으로 사용할 행 번호 지정
  * 첫 행이 열 이름이 아닌 경우, header 매개변수를 None으로 지정하고 names 매개변수에 열 이름 리스트를 전달
- names 매개변수: 열 이름의 리스트를 지정 (열 이름 중복X)

- encoding 매개변수: 해당 파일의 인코딩 방식 지정
- dtype 매개변수: 필요한 열의 데이터 타입 지정

 

 

1주차. 선택 미션

p71~73. 남산 도서관 데이터를 코랩에서 데이터프레임으로 출력하고 화면 캡처하기

데이터프레임 출력
데이터프레임 출력

 

 

 

728x90
728x90