본문 바로가기

도서 소개

하이 퍼포먼스 스파크


그동안 읽어주신 분들께 감사드립니다. 이 책은 현재 절판입니다.

2019 대한민국학술원 우수학술도서 선정!

아파치 스파크의 성능 최적화를 위한 코드 작성법!


출판사 제이펍
원출판사 O'Reilly
원서명 High Performance Spark (원서 ISBN: 9781491943205)
저자명 홀든 카로, 레이첼 워렌
역자명 박종영
출판일 2018년 5월 31일
페이지 376쪽
시리즈 I♥Cloud 16(아이러브클라우드 16)
판 형 46배판변형(188*245*18)
제 본 무선(soft cover)
정 가 28,000원
ISBN 979-11-88621-24-8 (93000)
키워드 아파치 스파크 / 데이터베이스 / 스칼라 / 클러스터 / 데이터 분석 /
분야 데이터베이스 / 빅데이터

관련 사이트

관련 포스트

관련 시리즈

관련 도서

관련 파일 다운로드


강의보조 자료
교재로 채택하신 분들은 메일을 보내주시면 아래의 자료를 보내드리겠습니다: jeipubmarketer@gmail.com
■ 본문의 그림과 표

샘플 PDF(차례, 옮긴이 머리말, 이 책에 대하여, 베타리더 후기, 1장 '고성능 처리를 위한 스파크 시작하기', 2장 '스파크는 어떻게 동작하는가?' 일부, 3장 'DataFrame, Dataset와 스파크 SQL' 일부, 5장 '효율적인 트랜스포메이션' 일부)

정오표 페이지

도서구매 사이트(가나다순)

도서 소개

아파치 스파크의 성능 최적화를 위한 코드 작성법!


모든 것이 잘 동작할 때 아파치 스파크는 놀라운 성능을 보여주지만, 아직 기대한 만큼의 성능을 보지 못했거나 스파크를 실무에 적용할 만한 확신을 얻지 못하고 있다면 이 책은 당신을 위한 것이다. 저자들은 적은 자원을 쓰면서도 더 빠르고 더 큰 데이터를 다룰 수 있도록 아파치 스파크의 성능 최적화를 잘 보여준다.


대규모 데이터를 다루는 소프트웨어 엔지니어, 데이터 엔지니어, 개발자, 시스템 관리자에게 더할 나위 없는 이 책은 데이터 인프라 비용과 개발 시간을 줄여주는 기술을 소개한다. 스파크를 깊게 이해함과 동시에 스파크의 독보적인 성능을 어떻게 끌어내는지 배울 수 있을 것이다.


이 책의 주요 내용

  • 스파크 SQL의 새로운 인터페이스 성능을 향상시키는 방법
  • 코어 스파크와 스파크 SQL에서의 조인 종류 선택
  • 기본 RDD 트랜스포메이션을 최대한 활용하는 방법
  • 키/값 페어 패러다임에서의 성능 이슈
  • 스칼라나 JVM 없이 고성능 스파크 코드를 작성하는 방법
  • 제시된 성능 향상을 위해 기능과 성능을 테스트하는 방법
  • 스파크 MLlib 및 스파크 ML 머신러닝 라이브러리 사용 방법
  • 스파크의 스트리밍 컴포넌트와 외부 커뮤니티 패키지


저자 소개

홀든 카로(Holden Karau)

홀든 카로는 트랜스젠더 캐나다인이면서 IBM 스파크 기술 센터의 소프트웨어 개발 엔지니어다. 그녀는 스파크 커미터이면서 파이 스파크와 머신러닝에 많은 기여를 하고 있다. 또한, 다양한 국제 콘퍼런스에서 스파크 발표자로 활동하고 있다.


레이첼 워렌(Rachel Warren)

레이첼 워렌은 알파인 데이터(Alpine Data)의 소프트웨어 엔지니어이자 데이터 과학자다. 그녀는 현실 데이터 처리와 머신러닝 작업에 스파크를 사용하고 있다. 또한, 실무와 교육계 양쪽에서 분석가이자 멘토로 활동하고 있다.


역자 소개

박종영

한국 오라클, 세븐 네트웍스 코리아를 비롯한 여러 회사에서 DBMS 엔진 및 푸시 메시징 엔진 등을 개발했다. 그루터를 거쳐 지금은 쿠팡에서 빅데이터 관련 개발 업무를 하고 있다. 아파치 타조(http://tajo.apache.org) 커미터로도 활동 중이다. 옮긴 책으로는 《도커: 설치부터 운영까지》, 《러닝 스파크》가 있다.


차례

CHAPTER 01 고성능 처리를 위한 스파크 시작하기 1

스파크는 무엇이며 성능은 왜 중요한가? 1

이 책에서 얻을 수 있는 것은 무엇인가? 2

스파크 버전 규칙 3

왜 스칼라인가? 4

스파크 전문가가 되고 싶다면 어쨌든 약간이라도 스칼라를 알아야 한다 4

스파크의 스칼라 API는 자바 API보다 훨씬 사용하기 쉽다 5

스칼라는 파이썬보다 성능이 더 뛰어나다 5

꼭 스칼라를 써야만 하는가? 5

스칼라 배우기 6

요약 7