728x90
728x90

[전체] 88

[혼공R이] #2. 데이터 분석을 위한 기본 다지기

2. 데이터 분석을 위한 기본 다지기    1) 데이터 분석 과정    2) 데이터의 생김새 1) 데이터 분석 과정1단계2단계3단계4단계5단계데이터 분석 설계데이터 준비데이터 가공데이터 분석결론 도출주제 선정가설 설정분석항목 선정데이터 확보데이터 파악추출 및 정제파생변수 생성데이터 병합통계 분석시각화가설 검정결과 정리   2) 데이터의 생김새(1) 데이터 구조- 데이터 세트(= 테이블) : n X m 형태의 행(관측치)과 열(변수)로 구성된 형태  (2) 데이터 유형숫자형문자형논리형숫자로만 구성문자로만 구성TRUE / FALSE구분1차원2차원n차원단일형(한 가지 유형)벡터행렬배열다중형(여러 유형)리스트데이터 프레임-  (3) 데이터 종류① 벡터 : 한 가지 유형으로 구성된 1차원 구조의 데이터[벡터]  ..

[혼공R이] #1. 빅데이터와 R

1. 빅데이터와 R    1) 빅데이터와 R 언어    2) 개발 환경 설치    3) R 스튜디오 인터페이스와 환경 설정 1) 빅데이터와 R 언어(1) 빅데이터 시대- 빅데이터는 기존에 처리하던 데이터보다 더 많은 양의 대규모 데이터를 의미함- 빅데이터의 특징은 4V로 규모(Volume), 속도(Velocity), 다양성(Variety), 정확성(Veracity)임 (2) R 언어장점단점통계분석에 특화 (패키지 多)처리속도 느림다양한 정보 공유스스로 문제해결 해야함무료 (오픈 소스)쉬워도 프로그래밍 언어다양한 운영체제에서 동작-   2) 개발 환경 설치(1) R 설치 파일 다운로드하기- R 공식 홈페이지(https://www.r-project.org/) → Download(CRAN) → Korea 항목..

[혼공분석] 11기 마무리하며♡

2번째 참여한 혼공학습단도 무사히 완주했다. 요즘 이런저런 일들로 번아웃이 왔었다. 초반에는 공부하기 위해 마음잡고 집중하기가 쉽지 않았다. 매주 미션 제출을 위해 억지로 공부하다 보니, 주차를 거듭할수록 슬럼프에 점차 벗어나는 듯했다. 혼공으로 벗어나지 못할 것만 같았던 슬럼프를 벗어난 점이 이번의 가장 큰 소득이었다. 역시 혼공학습단은 동기부여가 짱인 것 같다. 이번 [혼자 공부하는 데이터 분석 with 파이썬]은 공부하기 한결 수월했던 것 같다. 지난번 [혼자 공부하는 파이썬]을 학습해서 내공이 쌓여서 그런건지, 통계학과라서 그런 건지, 이유는 모르겠으나, 지난번에 비해 이해 안 되는 부분이 많지 않았다. 아무쪼록 11기 혼공학습단도 대만족! 번아웃도 극복하고, 블로그도 키울 수 있고, 데이터 분석..

[혼공분석] #7. 검증하고 예측하기

7. 검증하고 예측하기 1) 통계적으로 추론하기 (1) 모수검정 (2) 표준점수 (3) 표준정규분포 (4) 중심극한정리 (5) 신뢰구간 (6) 가설검정 (7) 순열검정 2) 머신러닝으로 예측하기 (1) 머신러닝 용어 (2) 선형 회귀 모델 훈련 (3) 결정계수 (4) 선형 회귀 (5) 로지스틱 회귀 1) 통계적으로 추론하기 (1) 모수검정 - 모집단에서 추출한 샘플(표본)로부터 모집단의 파라미터(평균/분산)를 추정하는 방법 - 모수검정은 모집단이 어떤 가정이다를 전제로 수행되는 경우가 많음 (예, 정규분포를 따름) (2) 표준점수 (= z 점수) - 정규분포 상에서 각 값이 평균에서 얼마나 떨어져 있는지를 표준편차를 사용해 변환한 점수 [z=(x-평균)/표준편차] - z 점수 구하는 2가지 방법이며, ①..

[혼공분석] #6. 복잡한 데이터 표현하기

6. 복잡한 데이터 표현하기 1) 객체지향 API로 그래프 꾸미기 (1) pyplot 및 객체지향 API 방식으로 그래프 그리기 (2) 출판사별 발행 도서 개수 산점도 그리기 2) 맷플롯립의 고급 기능 배우기 (1) 여러 개의 선 그래프 그리기 (2) 스택 영역 그래프 그리기 (3) 여러 개의 막대 그래프 그리기 (4) 원 그래프 그리기 (5) 여러 종류 그래프가 있는 서브플롯 그리기 1) 객체지향 API로 그래프 꾸미기 (1) 그래프 그리기 ① pyplot 방식 - matplotlib.pyplot에 있는 함수를 사용 - y축은 plot() 함수에 전달한 값, x축은 인덱스 값으로 함 import matplotlib.pyplot as plt plt.plot([1, 4, 9, 16]) plt.title('..

[혼공분석] #5. 데이터 시각화하기

5. 데이터 시각화하기 1) 맷플롯립 기본 요소 알아보기 (1) Figure 객체 (2) rcParams 객체 (3) 여러 개의 서브플롯 출력하기 2) 선 그래프와 막대 그래프 그리기 (1) 발행년도별 도서 개수 구하기 (2) 주제별 도서 개수 구하기 (3) 선 그래프 그리기 (4) 막대 그래프 그리기 1) 맷플롯립 기본 요소 알아보기 (1) Figure 객체 - 피겨는 맷플롯립의 그래프 요소를 모두 담고 있는 최상위 객체 - [Figure() 함수]의 [figsize 매개변수]로 그래프 크기를 지정할 수 있음 import matplotlib.pyplot as plt print(plt.rcParams['figure.figsize']) #기본 그래프 크기 확인 [6.4, 4.8] plt.figure(fig..

[혼공분석] #4. 데이터 요약하기

4. 데이터 요약하기 1) 통계로 요약하기 (1) 기술통계 구하기 (2) 평균 구하기 (3) 중앙값 구하기 (4) 최솟값/최댓값 구하기 (5) 분위수 구하기 (6) 분산/표준편차 구하기 (7) 최빈값 구하기 2) 분포로 요약하기 (1) 산점도 그리기 (2) 히스토그램 그리기 (3) 상자 수염 그림 그리기 1) 통계로 요약하기 (1) 기술통계 구하기 - [describe() 메서드]로 기술통계를 출력함 - count는 데이터 개수(누락된 값 제외), mean 평균, std 표준편차 등 ns_book6.describe() - [include 매개변수]로 데이터 타입 지정 가능함 - object 타입의 열에 대한 통계의 unique는 고유한 값의 개수, top 최빈값, freq 최빈값 개수(빈도 수) 등 ns..

[혼공분석] #3-2. 잘못된 데이터 수정하기

3. 데이터 정제하기 2) 잘못된 데이터 수정하기 (1) 데이터프레임 정보 요약 확인하기 (2) 누락된 값 처리하기 (3) 정규 표현식 (4) 잘못된 값 바꾸기 (5) 누락된 정보 채우기 2) 잘못된 데이터 수정하기 (1) 데이터프레임 정보 요약 확인하기 - 도서명은 누락된 값이 403개임 (=384591-384188) ns_book4.info() RangeIndex: 384591 entries, 0 to 384590 # 전체 행 개수 Data columns (total 13 columns): # 열 개수 # Column Non-Null Count Dtype --- ------ -------------- ----- 0 번호 384591 non-null int64 # 누락된 값이 없는 행 개수 1 도서명 ..

[혼공분석] #3-1. 불필요한 데이터 삭제하기

3. 데이터 정제하기 1) 불필요한 데이터 삭제하기 1-1) 열 삭제하기 (1) 불리언 배열 (2) drop() 메서드 (3) dropna() 메서드 1-2) 행 삭제하기 (1) 불리언 배열 (2) drop() 메서드 (3) 중복된 행 찾기, duplicated() 메서드 (4) 그룹별로 모으기, groupby() 메서드 (5) 원본 데이터 업데이트하기 (6) 일괄 처리 함수 만들기 1-1) 열 삭제하기 (1) 불리언 배열 - 데이터프레임에 저장된 열 출력 - 열 속성은 [Index 클래스] 객체로 리스트처럼 숫자 인덱스로 참조할 수 있음 print(ns_df.columns) print(ns_df.columns[0]) Index(['번호', '도서명', '저자', '출판사', '발행년도', 'ISBN',..

[혼공분석] #2-2. 웹 스크래핑으로 데이터 수집하기

2. 데이터 수집하기 2) 웹 스크래핑 사용하기 (1) 웹 크롤링 (2) 검색 결과 페이지 가져오기 (3) HTML 찾기 (4) 뷰티플수프 (5) 여러 도서 쪽수 정보 찾기 2) 웹 스크래핑 사용하기 (1) 웹 크롤링 (= 웹 스크래핑) - 웹사이트의 페이지를 옮겨 가며 데이터를 추출하는 작업 - requests 패키지로 웹사이트 HTML에서 데이터를 추출 - 예) YES24에서 도서 쪽수 웹 크롤링 과정 ※ 웹 크롤링 주의사항 - 웹사이트에서 스크래핑을 허락했는지 확인 (robots.txt 확인) - HTML 태그를 특정할 수 있는지 확인 - 디자인이 자주 변경되는지 확인 (2) 검색 결과 페이지 가져오기 ① 특정 열 선택 - 원하는 열 이름을 리스트로 만들어 데이터프레임의 인덱스처럼 사용 books ..

728x90
728x90