본문 바로가기

도서 소개

주머니 속의 머신러닝: 파이썬으로 구조적 데이터 다루기

머신러닝의 길잡이가 되어줄 주머니 속 핸드북!

 

도서구매 사이트(가나다순)

  [교보문고]  [도서11번가]  [반디앤루니스]  [알라딘]  [예스이십사]  [인터파크]  [쿠팡]  

출판사 제이펍
저작권사 O’Reilly Media
원서명 Machine Learning Pocket Reference: Working with Structured Data in Python (ISBN: 9781492047544)
지은이 맷 해리슨
옮긴이 박찬성
시리즈 아이러브 A.I. 31(I♥A.I. 31) 
출판일 2021년 4월 30일
페이지 332쪽
판   형 46판변형(128 x 188 x 16.5)
제   본 무선(soft cover)
정   가 15,000원
ISBN 979-11-91600-00-1 (93000)
키워드 Machine Learning, 머신러닝, 인공지능, AI, 타이타닉 데이터셋, 클러스터링, 회귀, 차원성 감소, 파이썬
분   야 인공지능 / 머신러닝

 

관련 사이트

아마존 도서소개 페이지

저작권사 도서소개 페이지

 

관련 포스트

2021/4/21 - 머신러닝의 길잡이가 되어줄 Quick Reference!

 

관련 시리즈
 I♥A.I 시리즈

 

관련 도서

머신러닝 도감

단단한 머신러닝

 

관련 파일 다운로드

예제 코드 및 컬러 그림 다운로드

 

교재 검토용 증정 안내

■ 학교 및 학원에서 교재 선정을 위해 책을 파일로 검토해보고자 하시는 분들은 다음의 페이지에서 신청 양식을 작성해주시기 바랍니다. 확인 후 연락을 드리도록 하겠습니다. http://goo.gl/vBtPo3

 

강의보조 자료

(교재로 채택하신 분들은 메일[textbook@jpub.kr]을 보내주시면 다음의 자료를 보내드리겠습니다.)

■ 본문의 그림과 표

 

샘플 PDF(차례, 옮긴이 머리말, 서문, 베타리더 후기, 1장 '소개', 2장 '머신러닝 과정에 대한 개요', 3장 '분류 문제 둘러보기: 타이타닉 데이터셋' 일부)

주머니속의머신러닝_sample.pdf
4.66MB

정오표 페이지

■ (등록되는 대로 링크를 걸어드리겠습니다)


도서구매 사이트(가나다순)

  [교보문고]  [도서11번가]  [반디앤루니스]  [알라딘]  [예스이십사]  [인터파크]  [쿠팡]  


도서 소개

머신러닝의 길잡이가 되어줄 주머니 속 핸드북!


이 책은 자세한 노트, 표, 예제를 담고 있으며, 구조적 데이터를 다루는 머신러닝의 기본을 탐색하는 데 도움이 되는 참고서이다.


또한 머신러닝 프로젝트의 수행 과정과 구조적 데이터를 분류하는 방법을 조망할 수 있어 프로그래머, 데이터 과학자, 인공지능 엔지니어에게 꼭 필요한 책이기도 하다. 클러스터링, 회귀, 차원성 감소를 비롯해 다음과 같은 여러 주제를 다룬다.


■ 타이타닉 데이터셋을 사용한 분류
■ 누락된 데이터를 다루는 등의 데이터 정리
■ 탐색적 데이터 분석
■ 샘플 데이터를 사용한 일반적인 전처리 과정
■ 모델에 유용한 특징의 선택
■ 모델의 선택
■ 분류 모델을 위한 평가지표와 평가
■ 다양한 머신러닝 기법을 사용한 회귀 예제
■ 회귀 모델을 위한 평가지표와 평가
■ 클러스터링
■ 차원성 감소

 

지은이 소개

맷 해리슨(Matt Harrison)
맷 해리슨은 파이썬과 데이터 과학을 위한 교육 및 컨설팅 회사인 MetaSnake를 운영 중이다. 2000년부터 데이터 과학, BI, 스토리지, 테스트 및 자동화, 오픈소스 스택 관리, 금융, 검색 등 다양한 도메인에서 파이썬을 활용한 경험이 많다.

 

옮긴이 소개

박찬성

인제대학교와 워싱턴 주립대학교에서 컴퓨터 공학을 전공했으며, 현재는 한국전자통신 연구원에서 컴퓨터 네트워크 분야를 연구 및 개발하고 있다. 《나만의 스마트워크 환경만들기》(비제이퍼블릭, 2020)를 집필하고, 《실전 시계열 분석》(한빛미디어, 2021)을 번역하였으며, 제이펍 출판사의 인공지능 시리즈의 디렉터로도 활동하는 등 글 쓰는 일에 관심이 많다. 또한 구글이 공인한 머신러닝 분야의 개발 전문가(Google Developers Experts for Machine Learning, ML GDE)로서 다양한 머신러닝 관련 프로젝트 및 교육자료를 만들고 있으며, 텐서플로 코리아 및 fast.ai KR 커뮤니티의 운영진 중 한 명으로 커뮤니티 발전에도 기여하고 있다.

 

차례

CHAPTER 1  소개

             1.1 사용된 라이브러리 2

             1.2 Pip을 이용한 설치 5

             1.3 Conda를 이용한 설치 7

 

CHAPTER 2  머신러닝 과정에 대한 개요

더보기

CHAPTER 3  분류 문제 둘러보기: 타이타닉 데이터셋

             3.1 프로젝트 구조의 제안 11

             3.2 필요한 패키지 12

             3.3 질문을 하자 13

             3.4 데이터에 관한 용어 14

             3.5 데이터의 수집 15

             3.6 데이터의 정리 16

             3.7 특징의 생성 24

             3.8 샘플 데이터 27

             3.9 데이터의 대치 27

             3.10 데이터의 표준화 29

             3.11 리팩터링 30

             3.12 베이스라인 모델 31

             3.13 다양한 알고리즘 32

             3.14 스태킹 34

             3.15 모델 만들기 35

             3.16 모델의 평가 36

             3.17 모델의 최적화 37

             3.18 오차 행렬 38

             3.19 ROC 곡선 40

             3.20 학습 곡선 41

             3.21 모델의 배포 42

 

CHAPTER 4  누락된 데이터

             4.1 누락된 데이터의 분석 46

             4.2 누락된 데이터의 삭제 50

             4.3 데이터의 대치 51

             4.4 지시자 열의 추가 52

 

CHAPTER 5  데이터의 정리

             5.1 열의 이름 53

             5.2 누락된 값의 교체 54

 

CHAPTER 6  탐색

             6.1 데이터의 크기 57

             6.2 요약 통계 58

             6.3 히스토그램 59

             6.4 산점도 60

             6.5 조인트 플롯 61

             6.6 쌍 격자 63

             6.7 박스 플롯과 바이올린 플롯 65

             6.8 두 순서형 값의 비교 66

             6.9 상관관계 68

             6.10 라드비즈 72

             6.11 평행 좌표 74

            

CHAPTER 7  데이터 전처리

             7.1 표준화 77

             7.2 범위 조정 79

             7.3 더미 변수 80

             7.4 레이블 인코더 82

             7.5 프리퀀시 인코딩 83

             7.6 문자열에서 범주 가져오기 83

             7.7 그 밖의 범주형 인코딩 85

             7.8 날짜형 데이터의 특징 공학 88

             7.9 col_na 특징의 추가 89

             7.10 수동적 특징 공학 90

 

CHAPTER 8  특징의 선택

             8.1 공선성을 가진 열 94

             8.2 라소 회귀 97

             8.3 재귀적 특징 제거 99

             8.4 상호 정보량 100

             8.5 주성분 분석 102

             8.6 특징 중요도 102

            

CHAPTER 9  불균형 범주의 문제           

             9.1 다른 평가 지표 사용하기 103

             9.2 트리 기반 알고리즘과 앙상블 103

             9.3 모델에 페널티 부과하기 104

             9.4 소수집단 데이터 업샘플링하기 105

             9.5 소수집단 데이터 생성하기 106

             9.6 과반수집단 데이터를 다운샘플링하기 106

             9.7 업샘플링 후 다운샘플링하기 108

 

CHAPTER 10  분류

             10.1 로지스틱 회귀 111

             10.2 나이브 베이즈 116

             10.3 서포트 벡터 머신 118

             10.4 K-최근접 이웃 122

             10.5 디시전 트리 125

             10.6 랜덤 포레스트 134

             10.7 XGBoost 139

             10.8 LightGBM을 사용한 그래디언트 부스팅 150

             10.9 TPOT 156

 

CHAPTER 11  모델 선택

             11.1 검증 곡선 161

             11.2 학습 곡선 163

 

CHAPTER 12  분류용 평가 지표로 평가하기

             12.1 오차 행렬 165

             12.2 평가 지표 168

             12.3 정확도 170

             12.4 재현율 171

             12.5 정밀도 171

             12.6 F1 171

             12.7 분류 보고서 172

             12.8 ROC 173

             12.9 정밀도-재현율 곡선 174

             12.10 누적 이득 도표 175

             12.11 리프트 곡선 177

             12.12 범주의 균형 179           

             12.13 범주 예측 오류 180

             12.14 차별 임계치 181

 

CHAPTER 13  모델 설명

             13.1 회귀 계수 183

             13.2 특징 중요도 184

             13.3 LIME 184

             13.4 트리 기반 모델의 해석 186

             13.5 부분 의존성 도표 187

             13.6 대리 모델 191

             13.7 SHAP 192

 

CHAPTER 14  회귀

             14.1 베이스라인 모델 200

             14.2 선형 회귀 200

             14.3 SVM 204

             14.4 K-최근접 이웃 207

             14.5 디시전 트리 209

             14.6 랜덤 포레스트 216

             14.7 XGBoost 회귀 220

             14.8 LightGBM 회귀 분석 227

            

CHAPTER 15  회귀용 평가 지표로 평가하기

             15.1 평가 지표 233

             15.2 잔차 도표 236

             15.3 이분산성 237

             15.4 정규 잔차 238

             15.5 예측 오차 도표 240

 

CHAPTER 16  회귀 모델의 해석

             16.1 SHAP 243

 

CHAPTER 17  차원성 감소

             17.1 PCA 250

             17.2 UMAP 269

             17.3 t-SNE 275

             17.4 PHATE 279

            

CHAPTER 18  클러스터링

             18.1 K-평균 285

             18.2 응집 클러스터링 293

             18.3 클러스터의 이해 296

 

CHAPTER 19  파이프라인

             19.1 분류 파이프라인 303

             19.2 회귀 파이프라인 306

             19.3 PCA 파이프라인 307

 

제이펍 소식 더 보기(제이펍의 소통 채널에서 더욱 다양한 소식을 확인하세요!) 

  네이버 책  포스트  유튜브  인스타그램  트위터  페이스북