본문 바로가기

도서 소개

실무 예제로 배우는 데이터 공학: 파이썬과 오픈소스 프로젝트로 만드는 나만의 데이터 공학 환경과 파이프라인

실시간 데이터 파이프라인을 구축, 모니터링 및 관리하고,
Apache 프로젝트를 사용하여 효율적인 데이터 엔지니어링 인프라를 생성한다!

 

도서구매 사이트(가나다순)

[교보문고] [도서11번가] [알라딘] [예스이십사] [인터파크]

전자책 구매 사이트(가나다순)

[교보문고] [구글북스] [리디북스] [알라딘] [예스이십사] [인터파크]

출판사 제이펍
저작권사 Packt Publishing
원서명 Data Engineering with Python(ISBN: 9781839214189)
지은이 폴 크리커드
옮긴이 류광
출판일 2021년 7월 20일
페이지 336쪽
판 형 46배판변형(188 x 245 x 18.5)
제 본 무선(soft cover)
정 가 27,000원
ISBN 979-11-91600-14-8 (93000)
키워드 파이썬, 데이터 공학, 분석, 추출, 파이프라인, SQL, NoSQL, Apache
분 야 파이썬 / 데이터 공학

 

관련 사이트

아마존 도서소개 페이지

저작권사 도서소개 페이지

관련 포스트

2021/7/8 - 파이썬과 오픈소스 프로젝트를 이용한 데이터 공학의 A to Z!

 

관련 도서

엑셀과 비교하며 배우는 파이썬 데이터 분석

R, JAGS, Stan을 이용한 베이지안 데이터 분석 바이블(제2판)

관련 파일 다운로드

예제 코드 다운로드

컬러 그림 다운로드

관련 Link 모음

주시기 바랍니다. 확인 후 연락을 드리도록 하겠습니다.

강의보조 자료

(교재로 채택하신 분들은 메일[textbook@jpub.kr]을 보내주시면 다음의 자료를 보내드리겠습니다.)

■ 본문의 그림과 표

샘플 PDF(표지, 차례, 옮긴이 머리말, 이 책에 대하여, 감수자 소개, 베타리더 후기, 1장 '데이터 공학이란?', 2장 '데이터 공학 기반구조 구축' 일부, 11장 '실습 프로젝트: 실무용 데이터 파이프라인 구축' 일부)

 

 

실무예제로배우는데이터공학-sample.pdf
4.34MB

 

정오표 페이지

■ (등록되는 대로 링크를 걸어드리겠습니다)


도서구매 사이트(가나다순)

[교보문고] [도서11번가] [알라딘] [예스이십사] [인터파크]

전자책 구매 사이트(가나다순)

[교보문고] [구글북스] [리디북스] [알라딘] [예스이십사] [인터파크]

도서 소개

실시간 데이터 파이프라인을 구축, 모니터링 및 관리하고,
Apache 프로젝트를 사용하여 효율적인 데이터 엔지니어링 인프라를 생성한다!


이 책은 데이터 공학의 기초를 소개하고, 대형 데이터 집합을 다루는 데이터 파이프라인을 구축하는 데 필요한 다양한 기술과 프레임워크를 개괄한다. 여러 예제를 통해 데이터를 정제하고 변환하는 방법과 데이터를 분석해서 데이터에서 최대한 많은 것을 얻는 방법을 배우게 될 것이다. 또한, 이 책은 복잡하고 덩치 큰 데이터를 다루는 방법과 실무 환경에 적합한 데이터 파이프라인을 구축하고 관리하는 방법도 설명한다. 현실적인 예제를 통해서는 데이터 파이프라인을 위한 기반 구조를 구축하고 실무 환경에 데이터 파이프라인을 배치하는 방법을 배우게 될 것이다.
이 책을 다 읽고 나면 파이썬과 오픈소스 프로젝트들을 이용한 데이터 공학이 어떤 것인지 확실하게 이해하게 될 것이며, 데이터를 추출하고, 그 품질을 점검하고, 용도에 맞게 적절히 변환하는 데이터 파이프라인을 구축해 낼 수 있는 자신감이 생길 것이다.


이 책의 주요 내용
데이터 과학 및 분석 작업을 지원하는 데이터 공학자의 역할과 임무
파일과 데이터베이스에서 데이터를 추출하는 방법과 데이터를 정제하고, 변환하고, 증강하는 방법
다양한 형식의 파일을 읽고 쓰는 방법과 SQL 및 NoSQL 데이터베이스를 다루는 방법
데이터 파이프라인을 구축하고 대시보드를 이용해서 데이터 흐름을 시각화하는 방법
데이터를 웨어하우스에 적재하기 전에 스테이징과 검증 단계를 이용해서 데이터를 점검하는 방법
데이터를 검증하고 장애를 처리하는 스테이징 단계를 가진 실시간 데이터 파이프라인 구축 방법
데이터 파이프라인을 실무 환경에 배치하는 방법과 주의 사항

 

지은이 소개

폴 크리커드(Paul Crickard)
폴 크리커드는 《Leaflet.js Essentials: Community Experience Distilled》(2014, Packt)의 저자이자《Mastering Geospatial Analysis with Python》(2018, Packt)의 공동 저자이며, 미국 뉴멕시코 주 앨버커키에 소재한 제2지방검찰청의 최고 정보 책임자(CIO)로 있다.
정치학 석사 학위 소지자이면서 공동체 및 지역 개발 경력을 지닌 저자는 사회과학 이론과 기법을 기술 프로젝트와 접목하는 전문가이기도 하다. ‘New Mexico Big Data and Analytics Summit’과 ‘Experience IT NM Conference’에 참여했고, ‘New MexicoBigDataWorkingGroup’, ‘Sandia National Labs’, ‘New Mexico Geographic Information Council’에서 강연자로 나서기도 했다.

 

옮긴이 소개

류광

류광은 《컴퓨터 프로그래밍의 예술》 시리즈와 《UNIX 고급 프로그래밍》 제2판·제3판, 《Game Programming Gems》 시리즈, 《인공지능: 현대적 접근방식 제3판》(제4판 출간 준비중)을 비롯해 80여 종의 다양한 IT 전문서를 옮긴 전문 번역가이다.

 

차례

PART I 데이터 파이프라인 구축: 추출, 변환, 적재 1

CHAPTER 1 데이터 공학이란? 3

1.1 데이터 공학자가 하는 일 3

1.2 데이터 공학 대 데이터 과학 7

1.3 데이터 공학 도구들 7

1.4 요약 13

CHAPTER 2 데이터 공학 기반구조 구축 15

2.1 아파치 NiFi의 설치와 설정 16

2.2 아파치 에어플로의 설치와 설정 24

2.3 일래스틱서치의 설치와 설정 30

2.4 키바나의 설치와 설정 31

2.5 PostgreSQL의 설치와 설정 36

2.6 pgAdmin 4 설치 37

2.6.1 pgAdmin 4 둘러보기 38

2.7 요약

더보기

CHAPTER 3 파일 읽고 쓰기 41

3.1 파이썬으로 파일 쓰고 읽기 41

3.2 아파치 에어플로 데이터 파이프라인 구축 51

3.3 NiFi 처리기를 이용한 파일 다루기 57

3.4 요약 68

CHAPTER 4 데이터베이스 다루기 69

4.1 파이썬을 이용한 관계형 데이터 삽입 및 추출 70

4.2 파이썬을 이용한 NoSQL 데이터베이스 데이터 삽입 및 추출 79

4.3 데이터베이스를 위한 아파치 에어플로 데이터 파이프라인 구축 87

4.4 NiFi 처리기를 이용한 데이터베이스 처리 91

4.4.1 PostgreSQL에서 데이터 추출 92 / 4.4.2 데이터 파이프라인 실행 95

4.5 요약 96

CHAPTER 5 데이터의 정제, 변환, 증강 99

5.1 파이썬을 이용한 탐색적 데이터 분석 100

5.2 pandas를 이용한 공통적인 데이터 문제점 처리 109

5.3 에어플로를 이용한 데이터 정제 119

5.4 요약 122

CHAPTER 6 실습 프로젝트: 311 데이터 파이프라인 만들기 123

6.1 데이터 파이프라인 구축 123

6.2 키바나 대시보드 만들기 132

6.3 요약 142

PART II 실무 환경 데이터 파이프라인 배치 145

CHAPTER 7 실무용 데이터 파이프라인의 특징 147

7.1 데이터의 스테이징과 검증 148

7.2 멱등적 데이터 파이프라인 구축 168

7.3 원자적 데이터 파이프라인 구축 169

7.4 요약 171

CHAPTER 8 NiFi 레지스트리를 이용한 버전 관리 173

8.1 NiFi 레지스트리의 설치과 설정 173

8.2 NiFi에서 레지스트리 사용 176

8.3 데이터 파이프라인 버전 관리 178

8.4 NiFi 레지스트리에서 git-persistence 활용 184

8.5 요약 188

CHAPTER 9 데이터 파이프라인 모니터링 189

9.1 NiFi GUI를 이용한 데이터 파이프라인 모니터링 189

9.2 NiFi 처리기를 이용한 데이터 파이프라인 모니터링 198

9.3 파이썬과 REST API를 이용한 데이터 파이프라인 모니터링 201

9.4 요약 206

CHAPTER 10 데이터 파이프라인 배치 207

10.1 실무 배치를 위한 데이터 파이프라인 마무리 작업 207

10.2 NiFi 변수 레지스트리 활용 214

10.3 데이터 파이프라인 배치 217

10.4 요약 222

CHAPTER 11 실습 프로젝트: 실무용 데이터 파이프라인 구축 223

11.1 검사 환경과 실무 환경 구축 223

11.2 실무용 데이터 파이프라인 구축 227

11.3 데이터 파이프라인을 실무 환경에 배치 238

11.4 요약 238

PART III 일괄 처리를 넘어서: 실시간 데이터 파이프라인 구축 241

CHAPTER 12 아파치 카프카 클러스터 구축 243

12.1 주키퍼 및 카프카 클러스터 생성 243

12.2 카프카 클러스터 시험 운영 248

12.3 요약 250

CHAPTER 13 카프카를 이용한 데이터 스트리밍 251

13.1 로깅의 기초 251

13.2 카프카의 로그 활용 방식 253

13.3 카프카와 NiFi를 이용한 데이터 파이프라인 구축 257

13.4 스트림 처리와 일괄 처리의 차이 264

13.5 파이썬을 이용한 메시지 생산 및 소비 266

13.6 요약 270

CHAPTER 14 아파치 스파크를 이용한 데이터 처리 271

14.1 아파치 스파크의 설치와 설정 271

14.2 PySpark의 설치와 설정 275

14.3 PySpark를 이용한 데이터 처리 277

14.4 요약 283

CHAPTER 15 MiNiFi, 카프카, 스파크를 이용한 실시간 엣지 데이터 처리 285

15.1 MiNiFi 설치 및 설정 285

15.2 MiNiFi 데이터 파이프라인 구축 및 연동 288

15.3 요약 293

APPENDIX A NiFi 클러스터 구축 295

 

제이펍 소식 더 보기(제이펍의 소통 채널에서 더욱 다양한 소식을 확인하세요!)

네이버 책 포스트 유튜브 인스타그램 트위터 페이스북