Эффективное обнаружение / извлечение ключевых слов.Предопределенный набор ключевых слов - PullRequest
3 голосов
/ 01 февраля 2011

Как эффективно извлечь ключевые слова с релевантностью из строки? Мой список ключевых слов предопределен. Например, в статье о Мишель Обаме, в которой также упоминается Барак Обама, я хочу извлечь Michelle Obama и Barack Obama с ключевым словом Michelle Obama, получая более высокое значение релевантности (в моих файлах присутствуют Michelle Obama и Barack Obama. список ключевых слов).

Проверка строки на количество вхождений каждого ключевого слова не очень эффективна. Мое приложение разработано на PHP, но любой язык в порядке, если я могу сделать это эффективно.

Я пробовал OpenCalais, но он не обнаруживает большинство моих ключевых слов. Можно ли извлечь ключевые слова с помощью Lucene?

1 Ответ

1 голос
/ 01 марта 2011

Пакет Apache Lucene подойдет вам.Однако, если у вас есть заголовок и абзацы, вы можете отфильтровать стоп-слова, дать более высокие оценки для слов в заголовке, а затем сопоставить их или их формы в абзацах. Вы можете обратиться к некоторым статьям обобщения текста для лучшего программирования самостоятельно.

...