스파크 완벽 가이드
문화이야기/도서이야기☆

스파크 완벽 가이드

아파치 스파크(Apache Spark)는 이 책의 저자인 Mate Zaharia 님이 UC 버클리에서 박사 과정 논문을 작성하며 개발한 범용 분산 클러스터 컴퓨팅 프레임워크로 오픈 소스로 공개되어 있습니다. 아파치 스파크에 대한 설명을 여기서 다루기는 어려울 것 같습니다. 이에 대한 자세한 내용은 다음 링크에서 확인하실 수 있습니다. 


아파치 스파크는 세계적으로 엄청난 사랑을 받는 프레임워크입니다. 국내에서도 이런 인기에 편승하여 출판사마다 아파치 스파크와 관련된 책을 앞다퉈 출시했습니다. 필자도 아파치 스파크에 관심이 많아 여러 책을 읽었는데, <스파크 완벽 가이드>는 아파치 스파크 제작자가 쓴 책이라 꼭 읽고 싶었던 책이었습니다. 


이 책을 리뷰하는 데 도움을 주신 한빛미디어 관계자님께 깊은 감사의 말씀을 전합니다.


The Book INSIDE

[제목] 스파크 완벽 가이드

[평점] ★★★★☆


[저자] Bill Chambers, Mate Zaharia 지음 | 우성한, 이영호, 강재원 번역

[링크] 도서소개 | 미리보기


한빛미디어 | 2018-12-10

796쪽 | ISBN(13) : 9791162241288



Bill Chambers

2014년에 몇몇 연구 프로젝트에 스파크를 도입했습니다. 데이터브릭스에서 제품 관리를 맡고 있으며 사용자들이 다양한 아파치 스파크 애플리케이션을 개발할 수 있는 환경을 만들기 위해 노력하고 있습니다. 또한 정기적으로 스파크와 관련된 블로그를 작성하고 콘퍼런스 발표와 밋업에 참여하고 있습니다. UC버클리 대학교 정보대학원에서 정보 관리와 시스템 분야의 석사학위를 취득했습니다.


Mate Zaharia

2009년에 아파치 스파크 프로젝트를 시작했고 UC버클리 대학교 박사 과정 동안 스파크와 함께 했습니다. 버클리의 여러 연구원 및 외부 공동 작업자와 함께 스파크의 핵심 API를 설계하고 스파크 커뮤니티를 성장시키고 있으며 구조적 API와 구조적 스트리밍 같은 새로운 개념을 만드는 데 참여하고 있습니다. 2013년 마테이와 버클리 스파크 팀은 오픈소스 프로젝트의 성장을 도우려 데이터브릭스를 설립하고 상업용 제품을 제공하기 시작했습니다. 현재 데이터브릭스의 최고 기술 전문가로 일하고 있으며 스탠퍼드 대학교의 컴퓨터 과학 분야 조교수를 맡아 대규모 시스템과 인공지능 분야를 연구하고 있습니다. 2013년에 UC버클리 대학교에서 컴퓨터 과학 박사학위를 취득했습니다. 마테이는 아파치 메소스 프로젝트의 초기 멤버이자 아파치 하둡의 커미터입니다. 마테이의 연구 내용은 2014 ACM Doctoral Dissertation Award 및 VMware Systems Research Award를 수상하며 인정받았습니다.


이 책에서 다루는 내용은?

<스파크 완벽 가이드>는 구성이 자연스럽습니다. 기존에 봤었던 아파치 스파크 책과 비교했을 때 확실히 돋보이는 점입니다. 아파치 스파크 제작자가 쓴 책답게 등장 배경과 역사 등을 비롯해 아파치 스파크의 디자인에 대한 철학적인 내용을 기술하여 필자의 기호에 안성맞춤이었습니다. 혹시 이런 부분에 매력을 느끼지 못한 독자도 있겠지만, 필자는 이런 부분에 높은 점수를 주고 싶습니다. 


또한, 아파치 스파크의 구성 요소에 대해 독자가 이해하기 쉽게 설명합니다. 필요하면 매우 잘 추상화한 그림을 첨부하여 독자의 이해를 돕습니다. 글을 써보면 알겠지만, 이렇게 기술하는 것이 매우 어렵습니다. 이 부분에 대해서는 두 저자뿐만 아니라 역자님들께 깊이 감사드립니다[각주:1]


<스파크 완벽 가이드>는 스칼라와 파이썬, 그리고 가능한 부분에 대해서 SQL을 함께 소개하여 각 언어에 대한 이해도가 낮아도 이미 알고 있는 언어로 실습해 볼 수 있어 매력적입니다. 필자는 아파치 스파크 사용을 위해 스칼라를 학습했었습니다. 필자가 처음 아파치 스파크를 접했을 때, 파이썬은 스칼라보다 매우 느린 결과를 도출했습니다만, 아파치 스파크 최신 버전에서는 이 차이가 유의미하게 줄어들어 파이썬을 사용해도 나쁘지 않습니다. 덕분에 더 많은 사람이 아파치 스파크의 매력에 빠질 것 같습니다.


<스파크 완벽 가이드>를 통해 파트 4와 파트 6을 제외한 나머지 부분은 이미 기존에 알고 있던 내용으로 이번 기회를 통해 복습하는 시간을 가졌습니다. 파트 4와 파트 6에 대해서는 이 책과 함께 오랜 시간을 보내야 할 것 같습니다. 이 책을 통해 기존에 정확하게 이해하지 못한 부분에 대해 정확히 알게 되었고, 부족한 부분이 어떤 점인지 많이 느끼게 되었습니다. 이른 시간 안에 이 부분에 대해서 더 깊이 있는 공부를 하고 싶습니다.


아파치 스파크를 학습할 때 직면하는 문제점 중 하나가 환경 구축에 대한 부분입니다. 아파치 스파크 설치 방법이 어려운 편은 아니지만, 환경을 구성한다는 것 자체가 번거로운 작업 중 하나입니다. <스파크 완벽 가이드>에서는 클라우드를 서비스를 활용해 무료 실습 환경을 제공하여 독자가 실습에 대한 부담을 극적으로 낮춰줍니다[각주:2]. 필자는 앞으로도 자주 활용할 것 같습니다.


마치면서...

이번 리뷰는 800페이지에 달하는 분량과 연말/연초로 리뷰 기한을 처음으로 지키지 못했습니다만, 한빛미디어에서 배려[각주:3]해 주셔서 리뷰를 완료할 수 있었습니다. 약속을 못 지켜 죄송합니다.


<스파크 완벽 가이드>는 최신 스파크 2.2 버전을 기준으로 작성되어 있습니다[각주:4]. 관련 문서를 참조하면 최신 버전에서도 활용하는 데 큰 문제는 없을 것으로 생각합니다[각주:5]


스파크 제작에 참여한 저자가 쓴 책이어서 그런지 개인적으로 읽었던 스파크 책 중에서 으뜸으로 생각됩니다. 책의 구성과 전개 방법도 훌륭하고, 콘텐츠 자체도 매우 인상적입니다. <스파크 완벽 가이드>는 입문서와 활용서 모든 측면에서 독자들에게 높은 점수를 받을 수 있을 것으로 생각합니다.


끝으로 이 책과 관련 없지만, 한빛미디어에서 보내준 책들이 가끔 손상되어 배송됩니다. 리뷰를 위한 책임에도 기분이 좋지는 않더군요. 이 부분은 개선이 필요해 보입니다. 

  1. 필자도 <스파크 완벽 가이드>의 내용처럼 글을 잘 쓰고 싶습니다. [본문으로]
  2. 추가로 도커 이미지도 제공하고 있어 설치 부담을 확 낮춰줍니다. [본문으로]
  3. 미리 연락을 드려 리뷰 기한을 연장했습니다. [본문으로]
  4. 2019년 1월 18일을 기준으로 최신 버전이 2.4입니다. [본문으로]
  5. 실제 필자가 실습을 진행하는데 큰 문제는 없었습니다. [본문으로]