안녕하세요? 오늘 소개할 책은 빅데이터 서적입니다. 《카프카 핵심 가이드》, 《몽고디비 인 액션(제판)》, 《하이 퍼포먼스 스파크》, 《러닝 스파크》와 같이 빅데이터와 연관된 도구나 언어 관련 서적은 간간이 출판해 왔지만, 빅데이터만을 중점적으로 다루는 기술 서적은 처음 출간하는 것 같습니다. 


대부분의 사람이 빅데이터라고 하면 '데이터 분석'을 먼저 떠올릴 텐데, 이 책은 데이터 분석 기법은 거의 다루지 않습니다. 이 책의 주제는 처음부터 끝까지 '데이터 처리를 어떻게 시스템화할 것인가', 즉 '데이터 처리의 자동화'에 포커스를 맞추고 있습니다. 



데이터 분석가의 업무 중 가장 많은 시간을 차지하면서도 가장 하기 싫은 영역이 바로 데이터 수집과 전처리 과정일 텐데요. (참고: http://www.dodomira.com/2016/10/20/how_to_eda/)  이 책에서는 바로 이 전처리 과정에 사용되는 소프트웨어와 데이터베이스, 프로그래밍 언어와 시각화 도구 등의 특징을 정리하여 데이터를 효율성 있게 취급하기 위한 기초 지식을 먼저 쌓게 합니다. 그런 다음. ‘워크플로 관리’와 ‘스트림 처리’ 등의 데이터 처리를 자동화하는 기술을 소개하는 식으로 구성되어 있습니다. 


데이터 분석을 처음 공부하는 분들이 알아야 할 기본적인 데이터 처리의 개념을 폭넓게 다루고 있어서 데이터 분석 업무를 시작하려는 분들이나 효율성 높은 데이터 처리에 관심 있는 분들에게 유익한 서적이 되지 않을까 싶습니다. 


참고로, 이 책은 일본의 기술평론사의 펴내는 '~~를 지탱하는 기술' 시리즈의 하나입니다. 저희 제이펍도 이 출판사의 책들 여러 종을 계약하여 펴내 관련 기술 전반에 대한 지식을 쌓고자 하는 분들로부터 좋은 평가를 받고 있는데요. 이 책 또한 빅데이터를 공부하고자 하는 분들에게 도움이 되었으면 합니다. 끝으로, 먼저 읽어보신 베타리더의 후기 중 하나를 소개하며 오늘 책 소개를 마치겠습니다.


온O영 님

이제 막 빅데이터 세계로 입문하거나 그 시스템을 도입하고자 할 때, 기본적으로 이해가 필요한 기초 지식, 배경, 도구(시스템), 클라우드까지 설명이 잘 나와 있어 활용도가 높습니다. 가장 인상 깊었던 부분은 단순 지식 전달에 그치지 않고 칼럼을 통해 시스템 노하우와 도입의 좋은 판단 기준이 서술되어 있다는 점입니다. 따라서, 이 책을 빅데이터 입문자, 데이터 엔지니어를 지향하는 개발자에게 필독서로 권합니다.


■ 샘플 PDF(차례, 옮긴이 머리말, 이 책에 대하여, 베타리더 후기, 1장 '빅데이터의 기초 지식' 일부, 2장 '빅데이터의 탐색' 일부, 4장 '빅데이터의 파이프라인' 일부)

빅데이터를지탱하는기술_sample.pdf


■ 도서구매 사이트(가나다순)


댓글을 달아 주세요