본문 바로가기

출간 전 책 소식

빅데이터 분석의 대세 프레임워크, 아파치 스파크

빠르게 사용할 수 있는 데이터 분석 라이브러리, 스칼라나 자바, 파이썬, R 등의 다양한 언어를 지원하며, 이들 언어와 데이터베이스에 대한 기본적인 이해가 있으면 쉽게 사용할 수 있다는 장점 등으로 최근 들어 많은 곳에서 아파치 스파크(Apache Spark)를 이용하고 있는 것 같습니다. 애플이나 페이스북과 같은 거대 IT 기업은 물론, 관공서나 유수의 금융/통신 업체들에서도 이용하고 있다고 합니다. 오픈소스이기 때문에 사용하려는 회사에 맞게 자유롭게 아파치 기반의 분석 인프라룰 구현할 수 있다는 것도 큰 장점인 것 같습니다. 



그래서 저희 제이펍도 스파크의 가능성을 보고 스파크의 창시자인 마테이 자하리아와 출륭한 스파크 커미터인 홀든 카로 등이 집필한 러닝 스파크》를 15년 가을에 출간하였었는데요. 오늘은 스파크 입문자를 위한 서적은 아니고, 스파크의 효율적인 사용법을 알고 싶은 스파크 사용자를 위한 책을 준비했습니다. 여담입니다만, 홀든 카로는 트레스젠더이기도 하답니다. 



러닝 스파크》의 저자였던 홀든 카로가 이번 책에도 참여하였고, 《러닝 스파크》를 번역하셨던 박종영 님께서 이번 책의 번역도 맡아주셨습니다. 마침 쿠팡에서 스파크를 직접 다루면서 번역하였기에 국내 독자들을 위한 좋은 팁(역주)들도 많이 넣어줄 수 있었던 것 같습니다. 예정했던 탈고일보다 조금 늦어지긴 했지만, 좋은 번역물을 주셔서 감사드립니다. 


이번 책은 고성능의 스파크 코드 작성 방법을 다루고 있습니다. 특히 스파크 코어 및 스파크 SQL API를 사용하는 방법에 중점을 두고 있어서 스칼라 언어와 스파크에 대한 기초적인 지식을 갖춰야 책을 제대로 소화할 수 있으리라 봅니다. 스파크에 대한 기초 지식을 위해서는 여러 책이 시중에 나와 있지만 러닝 스파크》를 강추합니다. ^^


아무쪼록 스파크를 좀 더 깊이 이해하고자 하는 데이터 과학자나 데이터 엔지니어를 위한 좋은 참고서가 되기를 바랍니다. 


이 책의 주요 내용

  • 스파크 SQL의 새로운 인터페이스 성능을 향상시키는 방법
  • 코어 스파크와 스파크 SQL에서의 조인 종류 선택
  • 기본 RDD 트랜스포메이션을 최대한 활용하는 방법
  • 키/값 페어 패러다임에서의 성능 이슈
  • 스칼라나 JVM 없이 고성능 스파크 코드를 작성하는 방법
  • 제시된 성능 향상을 위해 기능과 성능을 테스트하는 방법
  • 스파크 MLlib 및 스파크 ML 머신러닝 라이브러리 사용 방법
  • 스파크의 스트리밍 컴포넌트와 외부 커뮤니티 패키지


■ 샘플 PDF(차례, 옮긴이 머리말, 이 책에 대하여, 베타리더 후기, 1장 '고성능 처리를 위한 스파크 시작하기', 2장 '스파크는 어떻게 동작하는가?' 일부, 3장 'DataFrame, Dataset와 스파크 SQL' 일부, 5장 '효율적인 트랜스포메이션' 일부)

하이퍼포먼스스파크_sample.pdf


■ 도서구매 사이트(가나다순)

[강컴]   [교보문고]   [도서11번가]   [반디앤루니스]   [알라딘]   [예스이십사]   [인터파크]