Наша жизнь до предела наполнена информацией, мы буквально тонем в ней. По счастью, существуют инструменты и методы обработки неструктурированных текстов, которые могут стать спасательным кругом для толкового разработчика. Вы найдете их в этой книге.
В книге описаны инструменты и методы обработки неструктурированных текстов. Прочитав ее, вы научитесь пользоваться полнотекстовым поиском, распознавать имена собственные, производить кластеризацию, пометку, извлечение информации и автореферирование. Знакомство с фундаментальными принципами сопровождается изучением реальных применений.
Издание предназначено для читателей без подготовки в области математической статистики и обработки естественных языков. Примеры написаны на Java, но сами идеи могут быть реализованы на любом языке программирования.
"Срывает покров тайны с очень сложных процессов." - Лиз Лидди, iSchool, Сиракузский университет
"Таким и должно быть изложение анализа и обработки текста: кратким, практичным и основанным на программах с открытым исходным кодом." - Давид Вайсс, Carrot Search s.c.
"Показывает, как извлечь и использовать информацию, скрытую в текстовых документах." - Рик Вагнер, Red Hat
"Обучение принципам обработки текста на примерах… Показано, как сделать поиск в тексте простым делом." - Дуг Уоррен, Java Web Services