스파크를 이용한 자연어 처리
연구이야기/도서이야기☆

스파크를 이용한 자연어 처리

2021년 8월에 출간된 <스파크를 이용한 자연어 처리>에 대해 소개합니다. 이 책의 부제는 '대규모 텍스트를 다루는 가장 효율적인 딥러닝을 만나다'입니다. 필자는 자연어 처리를 온톨로지를 학습할 때 경험해 봤었습니다. 이 책은 자연어 처리를 스파크 기반 위에서 할 수 있는 라이브러리인 Spark NLP에 대해 소개하는 책입니다. 

이 책의 저자는 'Alex Thomas'이며, 원서는 아마존 리뷰에서 높은 점수(9점)를 받았습니다. 역자는 이창현 님으로 번역에 대해서는 개인적으로 호불호가 있을 것으로 판단합니다.

<스파크를 이용한 자연어 처리>는 440 페이지로 구성되어 있어 휴대하면서 읽기에 부담스럽지 않습니다. 다만 최근 출시된 한빛미디어 책은 전차책으로도 출간되므로 전자책을 읽을 수 있는 장치를 보유하신 분이라면 전자책으로 만나보는 것도 좋을 것 같습니다.

한빛미디어 평가단에 참가하여 작성한 글이며, 한빛미디어에서 제공해준 책을 읽고 작성했음을 밝힙니다. 

이 책의 매력은?

<스파크를 이용한 자연어 처리>는 자연어 처리 기초와 주요 알고리즘, 그리고 Spark NLP 라이브러리에 대해 학습하는 책입니다.

<스파크를 이용한 자연어 처리>는 4부 19개의 챕터로 구성되어 있습니다. 1부에서는 자연어 처리를 기본 개념과 지식, 그리고 딥러닝에 대해 간략히 소개합니다. 2부에서는 NLP 애플리케이션을 제작하기 위한 기술과 작동원리를 다룹니다. 3, 4부에서는 NLP 애플리케이션을 예제를 활용하여 직접 작성해보고 고려해야 할 사항들을 소개합니다. 이 책은 NLP 학습과 스파크를 활용한 NLP 애플리케이션 제작에 좋은 참고자료가 될 것 같습니다. 

저는 이 책을 제대로 소화하기 위해서는 기본적인 CS에 대한 지식이 필요하다고 생각합니다. CS에 대한 기초 지식이 부족하면 이 책에서 설명하는 내용을 소화하기가 어려울 것으로 판단합니다. 이 책의 주제가 쉬운 주제는 아니지만, 조금 꼼꼼하게 독자를 배려했으면 하는 아쉬움은 있습니다.

아래 좌측 이미지는 이 책의 그림 1-1입니다. 하지만 코드를 실행해서 나온 결과는 우측 이미지입니다. 코드에 대해 이해를 하고 이 책을 읽었다면, 우측 이미지가 제대로 나온 결과물임을 알 수 있겠지만 그렇지 않은 독자들은 당황스러울 수 있습니다.

위의 예처럼 저자가 설명을 전개하는 부분에서 아쉬움이 느껴집니다.

마치면서

<스파크를 이용한 자연어 처리>의 원서가 출간된 시점은 약 1년 전입니다. 이 문제로 말미암아, 컴퓨터에 익숙하지 않은 분들이라면 이 책에서 제공하는 개발 환경을 제대로 구축하고 실습을 원활히 진행하기에는 어려움이 있을 수도 있습니다. 필자가 추천하는 방법은 Google Colab을 활용하는 방법입니다. Google Colab을 이용하는 방법은 Github의 colab 디렉토리에 있는 자료를 활용하면 됩니다. 

<스파크를 이용한 자연어 처리>는 스파크 기반 환경에서 NLP를 효과적으로 학습하는 데 도움을 주는 책입니다. 이 책을 통해 새로운 라이브러리(Spark NLP)를 알게 되었습니다. 앞으로 자연어 처리가 필요할 때 이 라이브러리를 활용해보고 싶습니다. 개인적으로는 파이선으로 작성된 예제를 스칼라로 변경해 보고 싶습니다. 

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."