본문 바로가기

출간 전 책 소식

세상의 모든 텍스트를 통찰하라!

데이터 과학을 업으로 삼는다면 데이터가 그 어느 때보다 빠르게, 지속적으로 생성된다는 사실에 이견이 없을 것입니다. 데이터 분석가는 대부분 숫자가 채워진 테이블, 즉 직교형으로 정돈된 데이터를 처리하도록 교육받지만, 최근에 급증하는 데이터 중 대부분은 정형화되지 않았고, 그 안에 많은 텍스트마저 들어 있습니다. 게다가 데이터 랭글링(data wrangling)데이터 시각화(data visualization)를 위한 방법을 알고 있더라도 이 같은 방법을 텍스트에 쉽게 적용하기는 힘들며, 심지어 분석 분야에서 일하는 많은 분석가도 자연어를 간단히 해석하는 일조차 훈련받지 못하기도 합니다. 


그래서 지금 소개할 책을 집필한 줄리아와 데이비드는 텍스트 데이터를 정형화하기 위해 새로운 방법을 개발했습니다. 바로 이 책에서 중점적으로 다루고 있는 tidytext 패키지입니다. (이 책의 부제에 주목해주세요!)


《R로 배우는 텍스트 마이닝: tidytext 라이브러리를 활용하는 방법》


tidytext 패키지는 ggplot2나 dplyr 같은 R 패키지에 깔려 있는 tidy(정돈 또는 깔끔화) 원리를 바탕으로 개발되었습니다. tidy 원리란, RStudio의 수석 과학자인 '해들리 위컴(Hadley Wickham)'이 주장한 것으로 '처리하기에 좋은 모양으로 데이터를 배치하기 위한 원칙'들을 말합니다.




이처럼 tidytext 패키지와 그 밖의 R 관련 도구들을 통해 저자들은 텍스트를 데이터 프레임처럼 다루는 방법을 전수함으로써 텍스트의 특성들을 조작하고, 요약하고, 시각화할 능력을 갖추도록 도와줍니다. 자연어 처리(NLP) 방식을 통합해 효율성 있는 작업 흐름을 배우는 것은 물론, 실용적이고 인상적인 예제를 통해 데이터를 탐색하다 보면 우리가 분석하는 문학, 뉴스, 소셜 미디어로부터 진정한 통찰력을 창출할 수 있을 것입니다.


그럼 이 책에서 다루는 내용이 무엇인지 구체적으로 알아볼까요? 


이 책의 전반부에서는 정돈 텍스트 형식(tidy text format)을 소개하고, dplyr, tidyr 및 tidytext의 몇 가지 방법으로 이런 tidy 구조를 분석해 봅니다.


 1장에서는 정돈 텍스트 형식과 unnest_tokens() 함수를 개관합니다. 또한 이 책 전체에서 유용한 리터럴 텍스트 데이터셋을 제공하는 gutenbergr 및 janeaustenr 패키지를 소개합니다.


 2장에서는 tidytext에서 나온 sentiments 데이터셋과 dplyr에서 나온 inner_join()을 사용해 정돈 텍스트 데이터셋에서 정서분석(sentiment analysis)을 수행하는 방법을 보여줍니다.


• 3장에서는 특정 문서에서 특히 중요한 용어를 식별하는 데 사용되는 tf-idf 통계량에 관해 설명합니다.


 4장에서는 엔그램(n-gram)을 소개하고 widyr 및 ggraph 패키지를 사용해 텍스트의 단어 연결망(word network)을 분석하는 방법을 설명합니다. 텍스트는 분석의 모든 단계에서 정돈되지 않을 것이므로 정돈된 형식과 정돈되지 않은 형식 사이에서 이리저리 변환할 수 있어야 합니다.


 5장에서는 tm 및 quanteda 패키지에서 문서-용어 행렬Corpus 객체를 정리하는 방법과 정돈 텍스트 데이터셋을 이러한 형식으로 캐스팅하는 방법을 소개합니다.


 6장에서는 토픽 모델링의 개념을 탐구하고 tidy( ) 메서드를 사용해 topicmodels 패키지의 출력을 해석하고 시각화를 합니다.


후반부에서는 우리가 배웠던 여러 가지 정돈 텍스트 마이닝 접근법을 결합한 몇 가지 사례 연구로 결론을 맺습니다.


 7장에서는 저자의 트위터 아카이브를 분석해 정돈 텍스트 분석을 적용하는 방법을 보여줍니다. 데이비드와 줄리아의 트윗 습관을 비교해 보겠습니다.


• 8장에서는 3만 2,000개 이상의 NASA 데이터셋(JSON 형식으로 사용 가능)에 포함된 메타 데이터를 살펴봅니다. 데이터셋의 중요어(keywords)가 제목 및 설명 필드에 어떻게 연결되어 있는지 살펴봅니다.


• 9장에서는 정치, 하키, 기술, 무신론 등과 같은 토픽에 중점을 둔 다양한 뉴스그룹의 유즈넷 메시지 데이터셋을 분석해 해당 그룹 전체의 패턴을 이해합니다.


마지막으로, 이 책을 먼저 읽어본 두 독자의 말을 끝으로 소개를 마칩니다.


김지O 님 (삼성SDS)

텍스트 마이닝에 대한 이해는 물론, 자신감이 생기는 책입니다. 물 흐르는 듯한 구성, 상세한 개념 설명, 다양한 예제 코드를 통해 다양한 시각화를 경험하면, 손에서 책을 놓지 못할 수 있습니다. 책을 다 읽은 후에는 충분히 호기심이 충족되며, 책에 나온 사례들처럼 자신이 생각해 온 것들을 실현할 수 있는 기술을 습득할 수 있습니다.


이봉O 님 (네이버)

이 책은 직관적이고 쉽게 활용할 수 있어 통계 분석 분야에서 큰 인기를 얻고 있는 R 언어를 사용하여, 텍스트 마이닝 방법론의 기초를 소개하는 책입니다. 통계 분석과 R 언어에 대한 경험은 있지만, 비정형 텍스트 데이터 분석을 처음 시작하는 초심자에게 좋은 길잡이가 될 것 같습니다.


■ 샘플 PDF(차례, 옮긴이 머리말, 이 책에 대하여, 베타리더 후기, 1장 '정돈 텍스트(깔끔한 텍스트) 형식', 7장 '사례 연구: 트위터 아카이브 비교' 일부)

R로배우는텍스트마이닝_sample.pdf


■ 도서구매 사이트(가나다순)