본문 바로가기

도서 소개

러닝 스파크: 아파치 스파크를 이용한 데이터 분석 및 머신러닝 알고리즘

스파크 창시자 '마테이 자하리아'가 추천하는 스파크 입문서의 결정판!
《러닝 스파크: 번개같이 빠른 데이터 분석》의 제2판이 출간되었습니다.

도서구매 사이트(가나다순)

교보문고 / 도서11번가 / 알라딘 / 예스이십사 / 인터파크 / 쿠팡

 

출판사 제이펍
도서명 러닝 스파크(개정판)
부제 아파치 스파크를 이용한 데이터 분석 및 머신러닝 알고리즘
지은이 줄스 담지, 브룩 웨닉, 타타가타 다스, 데니 리

옮긴이 박종영, 이성수
감수자 (없음)
시리즈 ICloud 24
출판일 2022년 6월 24일
페이지 404쪽
판  형 46배판변형(188*245*19.5)
제  본 무선(soft cover)
정  가 30,000원
ISBN 979-11-91600-88-9 (93000)
키워드 Spark / 아파치 / 하둡 / 클러스터 / 스칼라 / SQL / 빅데이터
분  야 데이터베이스 / 빅데이터

 

관련 사이트
스파크 공식 사이트

아마존 도서소개 페이지

 원출판사 도서소개 페이지

 

관련 포스트
스파크 창시자가 추천하는 스파크 입문서의 결정판

 

관련 시리즈
ICloud


관련 파일 다운로드
예제 코드 다운로드

관련 도서

빅데이터 분석과 활용

빅데이터를 지탱하는 기술

러닝 스파크: 번개같이 빠른 데이터 분석(전판 도서, 현재 절판)

 

교재 검토용 증정 안내
■ 학교 및 학원에서 교재 선정을 위해 책을 파일로 검토해보고자 하는 분들은 다음 페이지에서 신청 양식을 작성해주시기 바랍니다. 확인 후 연락을 드리겠습니다. https://goo.gl/vBtPo3

강의 보조 자료(교재로 채택하신 분들은 메일(textbook@jpub.kr)을 보내주시면 다음의 자료를 보내드리겠습니다.)
본문의 그림과 표

미리 보기(앞부속물, 1장 '아파치 스파크 소개: 통합 분석 엔진', 2장 '아파치 스파크 다운로드 및 시작' 일부)

Sample_러닝스파크(개정판).pdf
5.74MB

 

도서구매 사이트(가나다순)

교보문고 / 도서11번가 / 알라딘 / 예스이십사 / 인터파크 / 쿠팡

 

도서 소개

스파크 창시자 '마테이 자하리아'가 추천하는 스파크 입문서의 결정판!
《러닝 스파크: 번개같이 빠른 데이터 분석》의 제2판이 출간되었습니다.

스파크 3.x를 포함하여 업데이트된 이 개정판은 데이터 엔지니어와 데이터 과학자에게 스파크의 구조와 통합이 중요한 이유를 보여줍니다. 간단한 것에서부터 복잡한 것까지 데이터 분석을 수행하고, 머신러닝 알고리즘의 사용 방법을 체계적으로 설명합니다. 단계별 연습, 코드 예제와 노트북 등을 통해 다음을 수행할 수 있습니다.


■ 파이썬, SQL, 스칼라, 자바를 이용한 고차원 정형 API 학습
■ 스파크 작업과 SQL 엔진의 이해
■ 스파크 설정 및 스파크 UI를 사용하여 스파크 작업을 검사, 튜닝, 디버깅
■ JSON, 파퀘이, CSV, 에이브로, ORC, 하이브, S3, 카프카와 같은 데이터 소스에 연결
■ 정형 스트리밍을 사용하여 배치 및 스트리밍 데이터에 대한 분석 수행
■ 오픈소스 델타 레이크 및 스파크로 안정적인 데이터 파이프라인 구축
■ MLlib을 사용하여 머신러닝 파이프라인을 개발하고 MLflow를 사용하여 모델 재생산 및 배포

지은이 소개

줄스 담지(Jules S. Damji)

데이터브릭스(Databricks)의 선임 개발자 애드버킷이자 MLflow의 공헌자다. 

 

브룩 웨닉(Brooke Wenig)
데이터브릭스의 데이터 과학 수석 컨설턴트로 일하다가 현재는 머신러닝 실무 리더로 재직하고 있다.

 

타타가타 다스(Tathagata Das)

데이터브릭스의 선임 소프트웨어 엔지니어이자 아파치 스파크 커미터이면서 스파크 프로젝트 관리 위원회(PMC) 멤버다.

 

데니 리(Denny Lee)

데이터브릭스의 선임 개발자 애드버킷이며, 0.6 버전부터 아파치 스파크 관련 일을 해왔다.

 

옮긴이 소개

박종영

한국 오라클, 세븐 네트웍스 코리아를 비롯한 여러 회사에서 DBMS 엔진 및 푸시 메시징 엔진 등을 개발했다. 그루터를 거쳐 지금은 쿠팡에서 빅데이터 관련 개발 업무를 하고 있으며, 시애틀에 거주 중이다. 옮긴 책으로는 《도커: 설치부터 운영까지》, 《러닝 스파크》, 《하이 퍼포먼스 스파크》(이상 제이펍)가 있다.

 

이성수
한국 테라데이타, 쿠팡에서 데이터 엔지니어로 근무하며 데이터 웨어하우스, 데이터 엔지니어링, 데이터 분석에 관한 많은 프로젝트를 수행했다. 현재는 쿠팡에서 웹로그를 정제, 가공하여 사용자에게 제공하고, 이에 기반한 고객 행동 데이터 분석 플랫폼을 개발 및 운영하고 있다. 공저로는 《Amazon Redshift: 레드시프트 구축부터 성능, 쿼리, 비용 최적화까지 마스터하기》(에이콘출판사)가 있다.

 

추천사

“비록 《러닝 스파크》 초판의 공동 저술에 참여했었지만, 이제는 차세대 스파크 컨트리뷰터 자신의 이야기를 시작할 수 있도록
해야 할 때였습니다. 이 책의 개정판을 작성하기 위해 초기부터 아파치 스파크와 긴밀하게 협력해 온 4명의 숙련된 실무자와 개발자가 팀을 이루어 명확하고 유용한 가이드에 스파크 개발자를 위한 최신 API와 모범 사례를 통합하게 되어 기쁩니다.”

— 마테이 자하리아(Matei Zaharia)
수석 기술자, 데이터브릭스 공동 설립자,
스탠퍼드 대학 조교수이자 아파치 스파크의 창시자

 

 

“아파치 스파크를 통해서 확장 가능하고 안정적인 빅데이터 애플리케이션의 구축 방법을 배우고자 하는 데이터 과학자와 데이터 엔지니어에게 필수 가이드!”

 벤 로리카(Ben Lorica)
데이터브릭스 수석 데이터 과학자,
전 오라일리 스트라타 콘퍼런스 프로그램 의장, 스파크 + AI 서밋 프로그램 의장

 

 

“이 책은 새로운 프로젝트 개발을 다루는 아파치 스파크 학습에 대하여 구조화된 접근 방식을 제공한다. 이것이 바로 스파크 개발자가 빅데이터를 시작할 수 있는 가장 좋은 방법!”

레이놀드 신(Reynold Xin)
데이터브릭스 수석 아키텍트 및 공동 설립자이자 아파치 스파크 PMC 멤버

 

 

차례

CHAPTER 1 아파치 스파크 소개: 통합 분석 엔진 1

스파크의 시작 1

아파치 스파크란 무엇인가? 4

통합된 분석 7

개발자의 경험 15

 

CHAPTER 2 아파치 스파크 다운로드 및 시작 19

1단계: 아파치 스파크 다운로드 19

2단계: 스칼라 혹은 파이스파크 셸 사용 22

로컬 머신 사용하기 24

3단계: 스파크 애플리케이션 개념의 이해 26

트랜스포메이션, 액션, 지연 평가 29

스파크 UI 31

첫 번째 단독 애플리케이션 34

요약 42

더보기

CHAPTER 3 아파치 스파크의 정형화 API 43

스파크: RDD의 아래에는 무엇이 있는가 44

스파크의 구조 확립 45

데이터 프레임 API 48

데이터세트 API 71

데이터 프레임 vs 데이터세트 77

스파크 SQL과 하부의 엔진 79

요약 85

 

CHAPTER 4 스파크 SQL과 데이터 프레임: 내장 데이터 소스 소개 86

스파크 애플리케이션에서 스파크 SQL 사용하기 87

SQL 테이블과 뷰 93

데이터 프레임 및 SQL 테이블을 위한 데이터 소스 98

요약 119

 

CHAPTER 5 스파크 SQL과 데이터 프레임: 외부 데이터 소스와 소통하기 120

스파크 SQL과 아파치 하이브 120

스파크 SQL , 비라인 및 태블로로 쿼리하기 126

외부 데이터 소스 134

PostgreSQL 137

데이터 프레임 및 스파크 SQL의 고차 함수 144

일반적인 데이터 프레임 및 스파크 SQL 작업 150

요약 163

 

CHAPTER 6 스파크 SQL과 데이터세트 164

자바와 스칼라를 위한 단일 API 164

데이터세트 작업 167

데이터세트 및 데이터 프레임을 위한 메모리 관리 175

데이터 집합 인코더 176

데이터세트 사용 비용 178

요약 180

 

CHAPTER 7 스파크 애플리케이션의 최적화 및 튜닝 181

효율적으로 스파크를 최적화 및 튜닝하기 181

데이터 캐싱과 영속화 191

스파크 조인의 종류 196

스파크 UI 들여다보기 206

요약 213

 

CHAPTER 8 정형화 스트리밍 214

아파치 스파크의 스트림 처리 엔진의 진화 214

정형화 스트리밍의 프로그래밍 모델 218

정형화 스트리밍 쿼리의 기초 220

실행 중인 스트리밍 쿼리의 내부 227

스트리밍 데이터 소스와 싱크 233

데이터 트랜스포메이션 243

상태 정보 유지 스트리밍 집계 246

스트리밍 조인 255

임의의 상태 정보 유지 연산 263

성능 튜닝 272

요약 274

 

CHAPTER 9 아파치 스파크를 통한 안정적인 데이터 레이크 구축 275

최적의 스토리지 솔루션의 중요성 275

데이터베이스 277

데이터 레이크 279

레이크하우스: 스토리지 솔루션 진화의 다음 단계 282

아파치 스파크 및 델타 레이크로 레이크하우스 구축 285

요약 296

 

CHAPTER 10 MLlib을 사용한 머신러닝 298

머신러닝이란 무엇인가? 299

머신러닝 파이프라인 설계 302

하이퍼파라미터 튜닝 322

요약 338

 

CHAPTER 11 아파치 스파크로 머신러닝 파이프라인 관리, 배포 및 확장 339

모델 관리 339

MLlib을 사용한 모델 배포 옵션 346

MLlib 모델에 스파크 활용 352

요약 358

 

CHAPTER 12 에필로그: 아파치 스파크 3.0 359

스파크 코어와 스파크 SQL 359

정형화 스트리밍 368

파이스파크, 판다스 UDF, 판다스 함수 API 370

변경된 기능들 373

요약 376

 

제이펍 소식 더 보기(제이펍의 소통 채널에서 더욱 다양한 소식을 확인하세요!)

네이버 책 / 포스트 / 유튜브 / 인스타그램 / 트위터 / 페이스북