본문 바로가기

출간 전 책 소식

스파크 창시자와 커미터들이 직접 저술한 스파크 입문서!

오늘 소개해드릴 책은 최근 빅데이터 처리 엔진으로 인기가 급부상하고 있는 스파크에 관한 입문서입니다. 오라일리에서 올 2월말에 출간된 서적이며, 스파크의 창시자인 마테이 자하리아(Matei Zaharia)를 비롯해 스파크 커미터들이 직접 집필에 참여하여 출간 전부터 많은 관심을 받았던 책입니다. 번역은 타조(Tajo)로 유명한 그루터의 박종영 님께서 맡아주셨고요. 스파크에 대해 속속들이 알고 있는 저자들이 집필한 서적이라 스파크 설치, 운영, 그리고 활용하는 방법까지를 잘 다루고 있으며, 스파크 입문자들을 위해 설명도 쉽게 하고 있는 것이 특징입니다. 


분산 데이터세트, 메모리 기반 캐싱, 대화형 셸 같은 스파크의 특징들을 빠르게 파고든다

 스파크 SQL, 스파크 스트리밍, MLlib 같은 스파크의 강력한 내장 라이브러리를 효과적으로 쓸 수 있다

 하이브, 하둡, 머하웃, 스톰 등 여러 도구를 혼용하고 연동하는 대신, 일관된 프로그래밍 개념을 사용한다

 대화형, 배치, 스트리밍 애플리케이션들을 서버에 올리는 방법을 배운다

 HDFS, 하이브, JSON, S3 같은 데이터 소스에 연결할 수 있다

 데이터 파티셔닝이나 공유 변수 같은 고급 개념들을 익힌다



원서로 먼저 읽어본 아마존 독자들의 반응은 아래 링크에서 살펴보세요.


 아마존 서평 보기




아파치 스파크는 빅데이터 플랫폼으로 각광받던 하둡보다 메모리에서 100배나 더 빨리 동작할 수 있다는 장점 때문에 고성능 분석 엔진으로 각광받고 있습니다. 일부 기능에서는 맵리듀스보다도 10-20배 정도 더 빠르다고도 하네요. 


아래는 스파크가 어떻게 구성되어 있는지를 보여주는 스파크의 각 콤포넌트에 대한 간단한 소개입니다. 


스파크의 구성


스파크 서적에 관심 있는 분들은 아래의 샘플 파일을 살펴보시고, 출간 후에도 많은 관심을 부탁드리겠습니다. 


■ 샘플 PDF(차례, 옮긴이 머리말,이 책에 대하여, 저자 소개, 베타리더 후기, 1장 스파크를 이용한 데이터 분석 소개, 2장 스파크 맛보기)

러닝스파크_sample.pdf


■ 도서구매 사이트(가나다순)