728x90
728x90

[전체] 76

[혼공분석] 11기 마무리하며♡

2번째 참여한 혼공학습단도 무사히 완주했다. 요즘 이런저런 일들로 번아웃이 왔었다. 초반에는 공부하기 위해 마음잡고 집중하기가 쉽지 않았다. 매주 미션 제출을 위해 억지로 공부하다 보니, 주차를 거듭할수록 슬럼프에 점차 벗어나는 듯했다. 혼공으로 벗어나지 못할 것만 같았던 슬럼프를 벗어난 점이 이번의 가장 큰 소득이었다. 역시 혼공학습단은 동기부여가 짱인 것 같다. 이번 [혼자 공부하는 데이터 분석 with 파이썬]은 공부하기 한결 수월했던 것 같다. 지난번 [혼자 공부하는 파이썬]을 학습해서 내공이 쌓여서 그런건지, 통계학과라서 그런 건지, 이유는 모르겠으나, 지난번에 비해 이해 안 되는 부분이 많지 않았다. 아무쪼록 11기 혼공학습단도 대만족! 번아웃도 극복하고, 블로그도 키울 수 있고, 데이터 분석..

[혼공분석] #7. 검증하고 예측하기

7. 검증하고 예측하기 1) 통계적으로 추론하기 (1) 모수검정 (2) 표준점수 (3) 표준정규분포 (4) 중심극한정리 (5) 신뢰구간 (6) 가설검정 (7) 순열검정 2) 머신러닝으로 예측하기 (1) 머신러닝 용어 (2) 선형 회귀 모델 훈련 (3) 결정계수 (4) 선형 회귀 (5) 로지스틱 회귀 1) 통계적으로 추론하기 (1) 모수검정 - 모집단에서 추출한 샘플(표본)로부터 모집단의 파라미터(평균/분산)를 추정하는 방법 - 모수검정은 모집단이 어떤 가정이다를 전제로 수행되는 경우가 많음 (예, 정규분포를 따름) (2) 표준점수 (= z 점수) - 정규분포 상에서 각 값이 평균에서 얼마나 떨어져 있는지를 표준편차를 사용해 변환한 점수 [z=(x-평균)/표준편차] - z 점수 구하는 2가지 방법이며, ①..

[혼공분석] #6. 복잡한 데이터 표현하기

6. 복잡한 데이터 표현하기 1) 객체지향 API로 그래프 꾸미기 (1) pyplot 및 객체지향 API 방식으로 그래프 그리기 (2) 출판사별 발행 도서 개수 산점도 그리기 2) 맷플롯립의 고급 기능 배우기 (1) 여러 개의 선 그래프 그리기 (2) 스택 영역 그래프 그리기 (3) 여러 개의 막대 그래프 그리기 (4) 원 그래프 그리기 (5) 여러 종류 그래프가 있는 서브플롯 그리기 1) 객체지향 API로 그래프 꾸미기 (1) 그래프 그리기 ① pyplot 방식 - matplotlib.pyplot에 있는 함수를 사용 - y축은 plot() 함수에 전달한 값, x축은 인덱스 값으로 함 import matplotlib.pyplot as plt plt.plot([1, 4, 9, 16]) plt.title('..

[혼공분석] #5. 데이터 시각화하기

5. 데이터 시각화하기 1) 맷플롯립 기본 요소 알아보기 (1) Figure 객체 (2) rcParams 객체 (3) 여러 개의 서브플롯 출력하기 2) 선 그래프와 막대 그래프 그리기 (1) 발행년도별 도서 개수 구하기 (2) 주제별 도서 개수 구하기 (3) 선 그래프 그리기 (4) 막대 그래프 그리기 1) 맷플롯립 기본 요소 알아보기 (1) Figure 객체 - 피겨는 맷플롯립의 그래프 요소를 모두 담고 있는 최상위 객체 - [Figure() 함수]의 [figsize 매개변수]로 그래프 크기를 지정할 수 있음 import matplotlib.pyplot as plt print(plt.rcParams['figure.figsize']) #기본 그래프 크기 확인 [6.4, 4.8] plt.figure(fig..

[혼공분석] #4. 데이터 요약하기

4. 데이터 요약하기 1) 통계로 요약하기 (1) 기술통계 구하기 (2) 평균 구하기 (3) 중앙값 구하기 (4) 최솟값/최댓값 구하기 (5) 분위수 구하기 (6) 분산/표준편차 구하기 (7) 최빈값 구하기 2) 분포로 요약하기 (1) 산점도 그리기 (2) 히스토그램 그리기 (3) 상자 수염 그림 그리기 1) 통계로 요약하기 (1) 기술통계 구하기 - [describe() 메서드]로 기술통계를 출력함 - count는 데이터 개수(누락된 값 제외), mean 평균, std 표준편차 등 ns_book6.describe() - [include 매개변수]로 데이터 타입 지정 가능함 - object 타입의 열에 대한 통계의 unique는 고유한 값의 개수, top 최빈값, freq 최빈값 개수(빈도 수) 등 ns..

[혼공분석] #3-2. 잘못된 데이터 수정하기

3. 데이터 정제하기 2) 잘못된 데이터 수정하기 (1) 데이터프레임 정보 요약 확인하기 (2) 누락된 값 처리하기 (3) 정규 표현식 (4) 잘못된 값 바꾸기 (5) 누락된 정보 채우기 2) 잘못된 데이터 수정하기 (1) 데이터프레임 정보 요약 확인하기 - 도서명은 누락된 값이 403개임 (=384591-384188) ns_book4.info() RangeIndex: 384591 entries, 0 to 384590 # 전체 행 개수 Data columns (total 13 columns): # 열 개수 # Column Non-Null Count Dtype --- ------ -------------- ----- 0 번호 384591 non-null int64 # 누락된 값이 없는 행 개수 1 도서명 ..

[혼공분석] #3-1. 불필요한 데이터 삭제하기

3. 데이터 정제하기 1) 불필요한 데이터 삭제하기 1-1) 열 삭제하기 (1) 불리언 배열 (2) drop() 메서드 (3) dropna() 메서드 1-2) 행 삭제하기 (1) 불리언 배열 (2) drop() 메서드 (3) 중복된 행 찾기, duplicated() 메서드 (4) 그룹별로 모으기, groupby() 메서드 (5) 원본 데이터 업데이트하기 (6) 일괄 처리 함수 만들기 1-1) 열 삭제하기 (1) 불리언 배열 - 데이터프레임에 저장된 열 출력 - 열 속성은 [Index 클래스] 객체로 리스트처럼 숫자 인덱스로 참조할 수 있음 print(ns_df.columns) print(ns_df.columns[0]) Index(['번호', '도서명', '저자', '출판사', '발행년도', 'ISBN',..

[혼공분석] #2-2. 웹 스크래핑으로 데이터 수집하기

2. 데이터 수집하기 2) 웹 스크래핑 사용하기 (1) 웹 크롤링 (2) 검색 결과 페이지 가져오기 (3) HTML 찾기 (4) 뷰티플수프 (5) 여러 도서 쪽수 정보 찾기 2) 웹 스크래핑 사용하기 (1) 웹 크롤링 (= 웹 스크래핑) - 웹사이트의 페이지를 옮겨 가며 데이터를 추출하는 작업 - requests 패키지로 웹사이트 HTML에서 데이터를 추출 - 예) YES24에서 도서 쪽수 웹 크롤링 과정 ※ 웹 크롤링 주의사항 - 웹사이트에서 스크래핑을 허락했는지 확인 (robots.txt 확인) - HTML 태그를 특정할 수 있는지 확인 - 디자인이 자주 변경되는지 확인 (2) 검색 결과 페이지 가져오기 ① 특정 열 선택 - 원하는 열 이름을 리스트로 만들어 데이터프레임의 인덱스처럼 사용 books ..

[혼공분석] #2-1. API로 데이터 수집하기

2. 데이터 수집하기 1) API 사용하기 (1) API란 (2) JSON 다루기 (3) XML 데이터 다루기 (4) API 호출하기 1) API 사용하기 (1) API란 - API: 프로그램 간 데이터를 전달하기 위해 정한 규칙, 데이터베이스 접근 권한이 복잡한 데이터 접근 시 API를 사용 - HTTP: 웹에서 데이터를 주고받기 위한 프로토콜 - 웹 기반 API에는 JSON, XML을 많이 사용함 (2) JSON 데이터 다루기 - JSON: 데이터 전달 포맷, 읽기 편하고 간단하게 파이썬 객체로 변환할 수 있는 것이 장점 ① {"키": "값"} - JSON 형식의 파이썬 딕셔너리 생성하기 d = {"name": "혼자 공부하는 데이터 분석"} # "키": "값" print(d['name']) 혼자 공..

[혼공분석] #1. 데이터 분석을 시작하며

1. 데이터 분석을 시작하며 1) 데이터 분석이란 2) 구글 코랩과 주피터 노트북 3) 이 도서가 얼마나 인기가 좋을까요? 1) 데이터 분석이란 (1) '데이터 분석' 및 '데이터 과학' 데이터 분석 데이터 과학 유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링하는 과정 통계학, 데이터 분석, 머신러닝, 데이터 마이닝 등을 아우르는 큰 개념 의사결정을 돕기 위한 통찰을 제공 문제해결을 위한 솔루션을 제공 (2) 데이터 분석가 - 프로그래밍 기술, 수학/통계, 도메인 지식을 모두 갖춰야 함 - 도메인 지식은 갖추기 어려워 해당 분야의 전문가 도움을 받기도 함 - 작업 과정은 (좁은 의미) 기술통계, 탐색적 데이터 분석, 가설검정, (넓은 의미) 데이터 ..

728x90
728x90