파이썬으로 배우는 응용 텍스트 분석

이 책은 현재 절판입니다. 그간 읽어주신 독자들께 감사드립니다.
~~텍스트 분석에 파이썬 라이브러리와 머신러닝을 사용하는 방법을 배워보자!~~

도서구매 사이트(가나다순)

~~[교보문고] [도서11번가] [반디앤루니스] [알라딘] [영풍문고] [예스이십사] [인터파크] [쿠팡]~~

~~텍스트 인식(언어 인식) 애플리케이션을 직접 만들며 배운다!~~

~~파이썬 라이브러리로 학습하는 자연어 처리와 머신러닝 응용 테크닉!~~

출판사 제이펍

원출판사 O'reilly

원서명 Applied Text Analysis with Python

저자명 벤자민 벵포트, 레베카 빌브로, 토니 오제다

역자명 박진수

출판일 2019년 11월 29일

페이지 392쪽

시리즈 I♥A.I. 20(제이펍의 인공지능 시리즈 20)

판 형 46배판변형(188*245*19.8)

제 본 무선(soft cover)

정 가 27,000원

ISBN 979-11-88621-77-4(93000)

키워드 파이썬 / 텍스트 분석 / 텍스트 마이닝 / 인공지능 / 머신러닝 / 자연어 처리 / NLP

분 야 인공지능 / 텍스트 분석

~~관련 도서~~

~~■ R로 배우는 텍스트 마이닝~~

~~■ 파이썬 라이브러리로 배우는 딥러닝 입문과 응용~~

~~관련 파일 다운로드~~

~~■ 예제 코드~~

~~■ 컬러 그림~~

~~샘플 PDF~~

~~(차례, 옮긴이 머리말, 이 책에 대하여, 베타리더 후기, 8장 '텍스트 시각화' 일부)~~

~~파이썬으로배우는응용텍스트분석_sample.pdf~~

~~정오표 페이지~~

~~(등록되는 대로 링크를 걸어두겠습니다.)~~

도서구매 사이트(가나다순)

~~[교보문고] [도서11번가] [반디앤루니스] [알라딘] [영풍문고] [예스이십사] [인터파크] [쿠팡]~~

~~도서 소개~~

~~텍스트 인식 애플리케이션을 직접 만들며 배운다!~~

~~파이썬 라이브러리로 학습하는 자연어 처리와 머신러닝 응용 테크닉!~~

뉴스나 연설 그리고 소셜 미디어에서 이뤄지는 사적인 대화에 이르기까지 자연어는 가장 널리 쓰이면서도 활용률은 낮은 데이터 중 하나다. 자연어는 일정하게 흐르지 않고 상황에 맞춰 늘 변하며 적응한다. 게다가 자연어는 기존 데이터에서 전달하지 않는 정보도 전하기 때문에, 텍스트 분석 응용 프로그램을 창의적으로 만들어 사용해야 적절히 해독할 수 있다.

이 책에서 여러분은 언어 인식(language-aware) 제품을 구축하는 일에 머신러닝을 활용하는 데이터 과학자의 접근 방식을 볼 수 있다. 특히, 문맥이나 사용 언어에 맞춰 특징을 처리하는 기술(즉, 특징 공학)이나 벡터화ㆍ분류ㆍ토픽 모델링ㆍ엔터티 분해ㆍ그래프 분석ㆍ시각적 조정 같은 기술도 다루고 있다. 더불어 파이썬 기반의 텍스트 분석에 필요한 강력하면서도 반복 및 확장 가능한 기술도 배울 수 있다. 이 책에 나온 내용을 모두 배우고 나면 복잡한 현업의 문제를 해결할 수 있는 실용적 해법을 찾을 수 있을 것이다.

~~이 책의 주요 내용~~

~~■ 텍스트를 전처리하고 벡터화해서 고차원 특징 표현으로 바꾸기~~

~~■ 문서 분류 및 토픽 모델링 수행하기~~

~~■ 시각적인 진단을 통해 모델 선택 과정 조정하기~~

~~■ 핵심 어구 추출, 개체명 식별, 그래프 구조 추출을 통해 텍스트가 담고 있는 데이터 추론하기~~

~~■ 챗봇이나 언어로 상호작용을 하는 대화형 프레임워크 만들기~~

~~■ 스파크를 사용해 처리 능력을 늘리거나 신경망을 사용해 더 복잡한 모델로 키우기~~

~~지은이 소개~~

~~벤자민 벵포트(Benjamin Bengfort)~~

벤자민은 분산 시스템 기술과 머신러닝 및 그 밖의 기술에도 해박한 데이터 과학자다. 자연어 처리에서부터 파이썬을 이용한 데이터 과학, 하둡과 스파크를 이용한 분석에 이르기까지 다양한 주제에 관한 글을 쓴다.

~~레베카 빌브로(Rebecca Bilbro)~~

레베카는 데이터 과학자이자 파이썬 프로그래머이자 교사이자 연사이자 작가다. 특징분석에서 모델 선택 및 하이퍼파라미터 조율에 이르기까지 시각적인 진단을 위한 머신러닝을 전문으로 하고, 자연어 처리, 의미 망 추출, 엔터

~~티 분해 및 고차원 정보에 관해 연구했다.~~

~~토니 오제다(Tony Ojeda)~~

토니는 데이터 과학 자문 및 기업 훈련, 연구 및 오픈소스 공동 작업을 수행하는 회사인 디스트릭트 데이터 랩스(District Data Labs)의 창립자 겸 최고경영자로서, 그곳에서 오픈소스 도구를 사용한 응용 분석(사업 전략, 최적화, 예측 및 커리큘럼)에 집중하고 있다.

~~옮긴이 소개~~

~~박진수~~

다양한 정보기술 분야 경력과 저술/번역 경험을 바탕으로 IT 융·복합 사업을 꿈꾸는, 1인 회사 ‘리율’의 대표다. 옮긴 책으로는 《R로 배우는 텍스트 마이닝》, 《케라스 창시자의 딥러닝 with R》, 《모두를 위한 실용 전자공학》,

~~《해킹 일렉트로닉스》, 《ggplot2》 등이 있다.~~

차례

~~CHAPTER 01 언어와 계산 1~~

~~데이터 과학 패러다임 2~~

~~언어 인식 데이터 제품 4~~

~~데이터 제품 파이프라인 6~~

~~데이터로서의 언어 9~~

~~언어의 계산 모델 10~~

~~언어 자질 11~~

~~맥락 자질 15~~

~~구조적 자질 17~~

~~결론 20~~

~~CHAPTER 02 사용자 정의 말뭉치 구축 21~~

~~말뭉치란 무엇인가? 22~~

~~영역 특정 말뭉치 22~~

~~Baleen 수집 엔진 23~~

~~말뭉치 데이터 관리 25~~

~~말뭉치 디스크 구조 27~~

~~말뭉치 리더 30~~

~~NLTK를 사용한 스트리밍 데이터 액세스 32~~

~~HTML 말뭉치 읽기 34~~

~~데이터베이스에서 말뭉치 읽기 38~~

~~결론 40~~

~~CHAPTER 03 말뭉치의 전처리와 가공 41~~

~~문서 쪼개 보기 42~~

~~핵심 내용 식별 및 추출 42~~

~~문서를 단락별로 나누기 44~~

~~분할: 문장별로 나누기 46~~

~~토큰화: 개별 토큰 식별 48~~

~~품사 태깅 49~~

~~중간 말뭉치 분석론 50~~

~~말뭉치 변환 52~~

~~중간 전처리 및 저장 52~~

~~처리된 말뭉치 읽기 56~~

~~결론 58~~

~~CHAPTER 04 텍스트 벡터화와 변환 파이프라인 59~~

~~공간 내 단어 61~~

~~빈도 벡터 62~~

~~원핫 인코딩 64~~

~~용어빈도-역문서빈도 67~~

~~분산 표현 71~~

~~사이킷런 API 74~~

~~BaseEstimator 인터페이스 74~~

~~TransformerMixin 확장 76~~

~~파이프라인 81~~

~~파이프라인의 기초 81~~

~~하이퍼파라미터 최적화를 위한 격자 검색 83~~

~~특징결합을 사용한 특징추출 강화 84~~

~~결론 86~~

~~CHAPTER 05 텍스트 분석을 위한 분류 89~~

~~텍스트 분류 90~~

~~분류 문제 식별 91~~

~~분류기 모델 92~~

~~텍스트 분류 애플리케이션 만들기 94~~

~~교차검증 94~~

~~모델 구성 98~~

~~모델 평가 100~~

~~결론 105~~

~~CHAPTER 06 텍스트 유사성을 위한 군집화 107~~

~~텍스트에 대한 비지도학습 108~~

~~문서 유사성에 의한 군집화 109~~

~~거리 계량 110~~

~~부분 군집화 112~~

~~위계적 군집화 118~~

~~문서 토픽 모델링 122~~

~~잠재 디리클레 할당 122~~

~~잠재 의미 분석 130~~

~~음이 아닌 행렬 인수분해 133~~

~~결론 134~~

~~CHAPTER 07 문맥 인식 텍스트 분석 137~~

~~문법 기반 특징추출 138~~

~~문맥 자유 문법 139~~

~~구문론적 구문분석기 139~~

~~키프레이즈 추출 141~~

~~엔터티 추출 144~~

~~엔그램 특징추출 145~~

~~엔그램 인식 CorpusReader 147~~

~~올바른 엔그램 창 선택하기 149~~

~~유의한 병치 150~~

~~엔그램 언어 모델 153~~

~~빈도 및 조건부 빈도 154~~

~~최대 가능도 추정 157~~

~~알 수 없는 단어: 백오프 및 평활화 160~~

~~언어 생성 163~~

~~결론 164~~

~~CHAPTER 08 텍스트 시각화 167~~

~~특징공간 시각화 168~~

~~시각적 특징분석 168~~

~~유도된 특징공학 179~~

~~모델 진단 187~~

~~군집 시각화 188~~

~~계급 시각화 190~~

~~분류 오차 진단 191~~

~~시각적 조향 195~~

~~실루엣 점수 및 엘보 곡선 195~~

~~결론 198~~

~~CHAPTER 09 텍스트의 그래프 분석 201~~

~~그래프 계산 및 분석 203~~

~~그래프 기반 시소러스 만들기 203~~

~~그래프 구조 분석 205~~

~~그래프의 시각적 분석 206~~

~~텍스트에서 그래프 추출하기 207~~

~~소셜 그래프 만들기 208~~

~~소셜 그래프에서 통찰력 얻기 211~~

~~엔터티 분해 219~~

~~그래프상의 엔터티 분해 220~~

~~구조로 차단하기 221~~

~~퍼지 차단 221~~

~~결론 224~~

~~CHAPTER 10 챗봇 227~~

~~대화의 기초 228~~

~~대화: 간략한 의견 교환 230~~

~~대화 유지 233~~

~~예의바른 대화 규칙 236~~

~~인사와 경례 236~~

~~의사불통 다루기 241~~

~~재미있는 질문 244~~

~~의존 구문분석 245~~

~~구 구조 분석 246~~

~~질문 검출 249~~

~~스푼에서 그램으로 251~~

~~도움을 위한 학습 256~~

~~이웃이 되기 257~~

~~추천 정보 제공 260~~

~~결론 263~~

~~CHAPTER 11 멀티프로세싱과 스파크를 사용한 텍스트 분석론 확장 265~~

~~파이썬 멀티프로세싱 266~~

~~병렬로 작업 실행 269~~

~~프로세스 풀 및 큐 274~~

~~병렬 말뭉치 전처리 276~~

~~스파크를 사용한 클러스터 컴퓨팅 278~~

~~스파크 작업의 해부학 278~~

~~말뭉치 배포 280~~

~~RDD 운영 282~~

~~스파크를 이용한 자연어 처리 284~~

~~결론 296~~

~~CHAPTER 12 딥러닝과 그 이후 299~~

~~응용 신경망 300~~

~~신경 언어 모델 300~~

~~인공 신경망 301~~

~~딥러닝 아키텍처 306~~

~~정서 분석 311~~

~~심층 구조 분석 313~~

~~미래가 바로 눈앞에 318~~

~~용어 해설 321~~

~~찾아보기 338~~

제이펍 소식 더 보기(제이펍의 소통 채널에서 더욱 다양한 소식을 확인하세요!)

~~네이버 책~~

~~포스트~~

~~유튜브~~

~~인스타그램~~

~~트위터~~

~~페이스북~~

'도서 소개' 카테고리의 다른 글

러스트 프로그래밍 공식 가이드 (0)	2019.11.27
포토샵 사전 (0)	2019.11.27
프로페셔널 안드로이드(제4판) (0)	2019.11.01
송쌤의 스크래치 코딩 학교 (0)	2019.10.30
오렌지노의 영상 편집을 위한 유튜브 배경음악 (2)	2019.10.21

파이썬으로 배우는 응용 텍스트 분석

'도서 소개' 카테고리의 다른 글

'도서 소개' Related Articles

티스토리툴바