책소개
과거 경영 및 마케팅 조사 방법론에서 큰 부분을 차지하던 설문조사 대신, 이제는 인터넷 블로그나 SNS 등과 같은 텍스트 유형의 데이터를 통한 분석이 주류를 이루고 있다. 『언어지능』은 이러한 흐름에 발맞춰 현재 데이터사이언스와 직접적으로 연관된 지능 관련 주제를 다룬다.
소비자를 알기 위해서 설문조사가 아니라 SNS 분석의 시대다. 소셜 네트워크 서비스의 데이터는 비정형이다. 텍스트, 이미지, 동영상 등으로 표현되어 있어 엑셀에 분류해서 넣을 수 없다. 디코딩하면 이진 신호이니 하려고 하면 못 할 바가 아니다. 이런 데이터를 비정형 데이터라 하여 빅데이터가 공략하는 데이터 되겠다. 빅데이터 분석은 통계적 추론과 전산적 처리로 구성된다.
이 책은 언어에 대한 데이터, 즉 텍스트를 전제로 하여 쓰여졌다. 스마트폰은 시리, 빅스비, 구글이, 스피커로는 알레사, 아리아, 지니의 세상이다. 음성인식은 가장 편리한 컴퓨터 입력 도구다. 저자는 이 책을 통해 언어지능을 세 가지로 구분했다. (1) 말을 알아듣는 인간과 기계의 인터페이스 영역, (2) 언어 데이터를 이해하는 언어데이터 처리(정보 검색, 문서요약 등), (3) 마지막으로 지적으로 일을 처리해주는 기계학습, 추론 이다. 열 가지 소주제로 나누어 언어지능을 이야기한다.