Как извлечь ключевые слова из блока текста в Haskell - PullRequest
7 голосов
/ 13 ноября 2011

Так что я знаю, что это довольно большая тема, но мне нужно принять кусок текста и извлечь из него самые интересные ключевые слова. Текст взят из телевизионных подписей, поэтому тема может варьироваться от новостей до спорта и ссылок на поп-культуру. Можно указать тип шоу, с которого пришел текст.

У меня есть идея сопоставить текст со словарем терминов, которые, как я знаю, могут быть интересны.

Какие библиотеки для Haskell могут помочь мне в этом?

Предполагая, что у меня есть словарь интересных терминов и база данных для их хранения, есть ли конкретный подход, который вы бы порекомендовали для сопоставления ключевых слов внутри текста?

Есть ли очевидный подход, о котором я не думаю?

Ответы [ 2 ]

2 голосов
/ 13 ноября 2011

Я бы подставил слова в чанках, а затем поискал по всем терминам в слове только две случайные библиотеки:

stem http://hackage.haskell.org/packages/archive/stemmer/0.2/doc/html/NLP-Stemmer-C.html

search http://hackage.haskell.org/packages/archive/sphinx/0.2.1/doc/html/Text-Search-Sphinx.html

1 голос
/ 15 ноября 2011

Чтобы развернуть ответ bpgergo (но у меня нет никакой информации, специфичной для haskell), довольно просто ввести документы в реляционную базу данных и проиндексировать их с помощью SOLR / lucene или sphinx, каждый из которых должен содержать их конфигурация по умолчанию / предлагаемая. И тогда вы можете искать, на каких документах есть пары, тройки и т. Д. Из вашего списка «интересных терминов»

Вы можете посмотреть на распознавание именованных объектов, статистически необычное обнаружение фраз, автоматическое создание тегов и тому подобные темы. Lingpipe - хорошее место, чтобы начать, также эти книги:

http://alias -i.com / lingpipe / демки / учебник / чтения Me.html

http://www.manning.com/marmanis/excerpt_contents.html

http://www.manning.com/alag/excerpt_contents.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...