본문 바로가기

출간 전 책 소식

스파크 창시자가 추천하는 스파크 입문서의 결정판

R, 파이썬, 스칼라, 자바 등의 다양한 언어를 지원하며, 분산형 ANSI SQL 쿼리로 빠르게 사용할 수 있는 데이터 분석 라이브러리를 갖춰서 이들 언어와 데이터베이스에 대한 기본적인 이해가 있으면 쉽게 사용할 수 있다는 장점 등의 이유로 최근 들어 많은 곳에서 아파치 스파크(Apache Spark)를 이용하고 있습니다.

Apache Spark's Ecosystem(https://spark.apache.org/)

 

오픈소스이기 때문에 사용하려는 회사에 맞게 아파치 기반의 분석 인프라를 자유롭게 구현할 수 있다는 것도 큰 장점입니다. 

 

https://databricks.com/kr/glossary/what-is-apache-spark

 

이 스파크 창시자 '마테이 자하리아'가 공저자로 참여했던 《러닝 스파크: 번개같이 빠른 데이터 분석》의 제2판이 곧 출간될 예정인데요, 이 개정판에서 자하리아는 다음과 같이 말하며 추천하고 있습니다.

 

스파크 3.x를 포함하여 업데이트된 이 개정판은 데이터 엔지니어와 데이터 과학자에게 스파크의 구조와 통합이 중요한 이유를 보여줍니다. 간단한 것에서부터 복잡한 것까지 데이터 분석을 수행하고, 머신러닝 알고리즘의 사용 방법을 체계적으로 설명하며, 단계별 연습, 코드 예제와 노트북 등을 통해 다음을 수행할 수 있습니다.


■ 파이썬, SQL, 스칼라, 자바를 이용한 고차원 정형 API 학습
■ 스파크 작업과 SQL 엔진의 이해
■ 스파크 설정 및 스파크 UI를 사용하여 스파크 작업을 검사, 튜닝, 디버깅
■ JSON, 파퀘이, CSV, 에이브로, ORC, 하이브, S3, 카프카와 같은 데이터 소스에 연결
■ 정형 스트리밍을 사용하여 배치 및 스트리밍 데이터에 대한 분석 수행
■ 오픈소스 델타 레이크 및 스파크로 안정적인 데이터 파이프라인 구축
■ MLlib을 사용하여 머신러닝 파이프라인을 개발하고 MLflow를 사용하여 모델 재생산 및 배포

 

 

■ 미리 보기(앞부속물, 1장 '아파치 스파크 소개: 통합 분석 엔진', 2장 '아파치 스파크 다운로드 및 시작' 일부)

Sample_러닝스파크(개정판).pdf
5.74MB

 

■ 예약구매 사이트(가나다순)

교보문고 / 도서11번가 / 알라딘 / 예스이십사 / 인터파크 / 쿠팡

 

■ 제이펍 소식 더 보기(제이펍의 소통 채널에서 더욱 다양한 소식을 확인하세요!)

네이버 책 / 포스트 / 유튜브 / 인스타그램 / 트위터 / 페이스북