728x90
728x90

혼공학습단 48

[혼공분석] #6. 복잡한 데이터 표현하기

6. 복잡한 데이터 표현하기 1) 객체지향 API로 그래프 꾸미기 (1) pyplot 및 객체지향 API 방식으로 그래프 그리기 (2) 출판사별 발행 도서 개수 산점도 그리기 2) 맷플롯립의 고급 기능 배우기 (1) 여러 개의 선 그래프 그리기 (2) 스택 영역 그래프 그리기 (3) 여러 개의 막대 그래프 그리기 (4) 원 그래프 그리기 (5) 여러 종류 그래프가 있는 서브플롯 그리기 1) 객체지향 API로 그래프 꾸미기 (1) 그래프 그리기 ① pyplot 방식 - matplotlib.pyplot에 있는 함수를 사용 - y축은 plot() 함수에 전달한 값, x축은 인덱스 값으로 함 import matplotlib.pyplot as plt plt.plot([1, 4, 9, 16]) plt.title('..

[혼공분석] #5. 데이터 시각화하기

5. 데이터 시각화하기 1) 맷플롯립 기본 요소 알아보기 (1) Figure 객체 (2) rcParams 객체 (3) 여러 개의 서브플롯 출력하기 2) 선 그래프와 막대 그래프 그리기 (1) 발행년도별 도서 개수 구하기 (2) 주제별 도서 개수 구하기 (3) 선 그래프 그리기 (4) 막대 그래프 그리기 1) 맷플롯립 기본 요소 알아보기 (1) Figure 객체 - 피겨는 맷플롯립의 그래프 요소를 모두 담고 있는 최상위 객체 - [Figure() 함수]의 [figsize 매개변수]로 그래프 크기를 지정할 수 있음 import matplotlib.pyplot as plt print(plt.rcParams['figure.figsize']) #기본 그래프 크기 확인 [6.4, 4.8] plt.figure(fig..

[혼공분석] #4. 데이터 요약하기

4. 데이터 요약하기 1) 통계로 요약하기 (1) 기술통계 구하기 (2) 평균 구하기 (3) 중앙값 구하기 (4) 최솟값/최댓값 구하기 (5) 분위수 구하기 (6) 분산/표준편차 구하기 (7) 최빈값 구하기 2) 분포로 요약하기 (1) 산점도 그리기 (2) 히스토그램 그리기 (3) 상자 수염 그림 그리기 1) 통계로 요약하기 (1) 기술통계 구하기 - [describe() 메서드]로 기술통계를 출력함 - count는 데이터 개수(누락된 값 제외), mean 평균, std 표준편차 등 ns_book6.describe() - [include 매개변수]로 데이터 타입 지정 가능함 - object 타입의 열에 대한 통계의 unique는 고유한 값의 개수, top 최빈값, freq 최빈값 개수(빈도 수) 등 ns..

[혼공분석] #3-2. 잘못된 데이터 수정하기

3. 데이터 정제하기 2) 잘못된 데이터 수정하기 (1) 데이터프레임 정보 요약 확인하기 (2) 누락된 값 처리하기 (3) 정규 표현식 (4) 잘못된 값 바꾸기 (5) 누락된 정보 채우기 2) 잘못된 데이터 수정하기 (1) 데이터프레임 정보 요약 확인하기 - 도서명은 누락된 값이 403개임 (=384591-384188) ns_book4.info() RangeIndex: 384591 entries, 0 to 384590 # 전체 행 개수 Data columns (total 13 columns): # 열 개수 # Column Non-Null Count Dtype --- ------ -------------- ----- 0 번호 384591 non-null int64 # 누락된 값이 없는 행 개수 1 도서명 ..

[혼공분석] #3-1. 불필요한 데이터 삭제하기

3. 데이터 정제하기 1) 불필요한 데이터 삭제하기 1-1) 열 삭제하기 (1) 불리언 배열 (2) drop() 메서드 (3) dropna() 메서드 1-2) 행 삭제하기 (1) 불리언 배열 (2) drop() 메서드 (3) 중복된 행 찾기, duplicated() 메서드 (4) 그룹별로 모으기, groupby() 메서드 (5) 원본 데이터 업데이트하기 (6) 일괄 처리 함수 만들기 1-1) 열 삭제하기 (1) 불리언 배열 - 데이터프레임에 저장된 열 출력 - 열 속성은 [Index 클래스] 객체로 리스트처럼 숫자 인덱스로 참조할 수 있음 print(ns_df.columns) print(ns_df.columns[0]) Index(['번호', '도서명', '저자', '출판사', '발행년도', 'ISBN',..

[혼공분석] #2-2. 웹 스크래핑으로 데이터 수집하기

2. 데이터 수집하기 2) 웹 스크래핑 사용하기 (1) 웹 크롤링 (2) 검색 결과 페이지 가져오기 (3) HTML 찾기 (4) 뷰티플수프 (5) 여러 도서 쪽수 정보 찾기 2) 웹 스크래핑 사용하기 (1) 웹 크롤링 (= 웹 스크래핑) - 웹사이트의 페이지를 옮겨 가며 데이터를 추출하는 작업 - requests 패키지로 웹사이트 HTML에서 데이터를 추출 - 예) YES24에서 도서 쪽수 웹 크롤링 과정 ※ 웹 크롤링 주의사항 - 웹사이트에서 스크래핑을 허락했는지 확인 (robots.txt 확인) - HTML 태그를 특정할 수 있는지 확인 - 디자인이 자주 변경되는지 확인 (2) 검색 결과 페이지 가져오기 ① 특정 열 선택 - 원하는 열 이름을 리스트로 만들어 데이터프레임의 인덱스처럼 사용 books ..

[혼공분석] #2-1. API로 데이터 수집하기

2. 데이터 수집하기 1) API 사용하기 (1) API란 (2) JSON 다루기 (3) XML 데이터 다루기 (4) API 호출하기 1) API 사용하기 (1) API란 - API: 프로그램 간 데이터를 전달하기 위해 정한 규칙, 데이터베이스 접근 권한이 복잡한 데이터 접근 시 API를 사용 - HTTP: 웹에서 데이터를 주고받기 위한 프로토콜 - 웹 기반 API에는 JSON, XML을 많이 사용함 (2) JSON 데이터 다루기 - JSON: 데이터 전달 포맷, 읽기 편하고 간단하게 파이썬 객체로 변환할 수 있는 것이 장점 ① {"키": "값"} - JSON 형식의 파이썬 딕셔너리 생성하기 d = {"name": "혼자 공부하는 데이터 분석"} # "키": "값" print(d['name']) 혼자 공..

[혼공분석] #1. 데이터 분석을 시작하며

1. 데이터 분석을 시작하며 1) 데이터 분석이란 2) 구글 코랩과 주피터 노트북 3) 이 도서가 얼마나 인기가 좋을까요? 1) 데이터 분석이란 (1) '데이터 분석' 및 '데이터 과학' 데이터 분석 데이터 과학 유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링하는 과정 통계학, 데이터 분석, 머신러닝, 데이터 마이닝 등을 아우르는 큰 개념 의사결정을 돕기 위한 통찰을 제공 문제해결을 위한 솔루션을 제공 (2) 데이터 분석가 - 프로그래밍 기술, 수학/통계, 도메인 지식을 모두 갖춰야 함 - 도메인 지식은 갖추기 어려워 해당 분야의 전문가 도움을 받기도 함 - 작업 과정은 (좁은 의미) 기술통계, 탐색적 데이터 분석, 가설검정, (넓은 의미) 데이터 ..

[혼공학습단 파이썬] 10기 마무리하며♡

혼공학습단 10기로 선정되고 7~8월은 파이썬 공부로 갓생을 보냈던 것 같다. 회사 다니면서 평일저녁과 주말에 [동영상 강의 수강 + 책 정독 및 실습 + 블로그 정리 + 미션 수행]까지 열심히 공부했더니 최우수 혼공족에 선정되는 유종의 미를 거뒀다! (소리질러!! 예~~~) 혼공단의 마무리로 활동하면서 느꼈던 점과 향후 계획 등에 대해 남겨보려 합니다. ■ 활동하면서 느낀 점 이번 10기에는 총 500명의 혼공족이 선발되었는데, 그 중 319명이 1주차 미션을 제출하고, 최종 완주는 176명(35%)이라고 합니다. 역시 매주 꾸준히 하는 건 쉽지 않은 것 같아 보입니다. 한빛미디어 직원분들 열일하신다는 생각이 많이 들었습니다. 미션글에 개별 맞춤형 댓글 달아주시고, 어떻게든 공부시키려고 격려메시지와 선..

[혼공학습단 파이썬] #1. 용어, Data Types(int, dict, boolean, str, list, tuple)

■ 파이썬 용어 - 표현식(expression): 어떤 값을 만들어내는 코드를 의미 - 식별자(identifier): 사용자가 정의한 단어, 키워드 단어X, 숫자 시작X, 공백X - 키워드(keyword): 창시자가 정의한 단어 - 문장(statement): 실행할 수 있는 코드를 의미 - 주석(comment): 프로그램에 영향을 주지 않는 코드, #으로 시작, 초록색 글씨 예) # 문자열을 출력합니다. - print( ) : 메시지를 출력하는 함수 ■ 파이썬 Data Types 1. 숫자형 (Numeric) (1) 정수 (Integer, Int) - 소수점이 없는 숫자 (1, 10, 40297) > a = 10 (2) 실수 (Floating Piont, Float) - 소수점이 있는 숫자 (3.5, 1..

728x90
728x90