오늘 소개해드릴 책은 최근 빅데이터 처리 엔진으로 인기가 급부상하고 있는 스파크에 관한 입문서입니다. 오라일리에서 올 2월말에 출간된 서적이며, 스파크의 창시자인 마테이 자하리아(Matei Zaharia)를 비롯해 스파크 커미터들이 직접 집필에 참여하여 출간 전부터 많은 관심을 받았던 책입니다. 번역은 타조(Tajo)로 유명한 그루터의 박종영 님께서 맡아주셨고요. 스파크에 대해 속속들이 알고 있는 저자들이 집필한 서적이라 스파크 설치, 운영, 그리고 활용하는 방법까지를 잘 다루고 있으며, 스파크 입문자들을 위해 설명도 쉽게 하고 있는 것이 특징입니다. 


분산 데이터세트, 메모리 기반 캐싱, 대화형 셸 같은 스파크의 특징들을 빠르게 파고든다

 스파크 SQL, 스파크 스트리밍, MLlib 같은 스파크의 강력한 내장 라이브러리를 효과적으로 쓸 수 있다

 하이브, 하둡, 머하웃, 스톰 등 여러 도구를 혼용하고 연동하는 대신, 일관된 프로그래밍 개념을 사용한다

 대화형, 배치, 스트리밍 애플리케이션들을 서버에 올리는 방법을 배운다

 HDFS, 하이브, JSON, S3 같은 데이터 소스에 연결할 수 있다

 데이터 파티셔닝이나 공유 변수 같은 고급 개념들을 익힌다



원서로 먼저 읽어본 아마존 독자들의 반응은 아래 링크에서 살펴보세요.


 아마존 서평 보기




아파치 스파크는 빅데이터 플랫폼으로 각광받던 하둡보다 메모리에서 100배나 더 빨리 동작할 수 있다는 장점 때문에 고성능 분석 엔진으로 각광받고 있습니다. 일부 기능에서는 맵리듀스보다도 10-20배 정도 더 빠르다고도 하네요. 


아래는 스파크가 어떻게 구성되어 있는지를 보여주는 스파크의 각 콤포넌트에 대한 간단한 소개입니다. 


스파크의 구성


스파크 서적에 관심 있는 분들은 아래의 샘플 파일을 살펴보시고, 출간 후에도 많은 관심을 부탁드리겠습니다. 


■ 샘플 PDF(차례, 옮긴이 머리말,이 책에 대하여, 저자 소개, 베타리더 후기, 1장 스파크를 이용한 데이터 분석 소개, 2장 스파크 맛보기)

러닝스파크_sample.pdf


■ 도서구매 사이트(가나다순)


댓글을 달아 주세요

  1.  댓글주소  수정/삭제  댓글쓰기 김호준 2015.10.05 14:51 신고

    출간일이 언젠가요?

  2.  댓글주소  수정/삭제  댓글쓰기 김호준 2015.10.07 08:47 신고

    답변 해주셔서 감사합니다.
    한가지 더 문의드리고 싶은데
    Amazon 사이트에
    "Advanced Analytics with Spark: Patterns for Learning from Data at Scale"
    라고 위의 책처럼 별점이 상당히 우수한 책이 있는데
    혹시 번역 출간 계획이 있으신지요?..^^;;
    물론 러닝 스파크 책도 구입할거고 번역해주시면 구입할 의사가 있습니다..ㅎㅎ
    그냥 궁금해서..^^;;
    수고하세요.

    •  댓글주소  수정/삭제 Favicon of http://jpub.tistory.com BlogIcon 제이펍 2015.10.07 09:43 신고

      네. 그 책은 스파크 중급자용(?) 서적인데,
      저희가 아닌 다른 출판사에서 출간 준비 중인 걸로 알고 있습니다.
      언제 번역 출간되는지는 모르겠습니다.
      두 책 모두 스파크 공부하시는 데 도움이 되었으면 좋겠네요. :)



티스토리 툴바