Как эффективно извлечь ключевые слова с релевантностью из строки? Мой список ключевых слов предопределен. Например, в статье о Мишель Обаме, в которой также упоминается Барак Обама, я хочу извлечь Michelle Obama
и Barack Obama
с ключевым словом Michelle Obama
, получая более высокое значение релевантности (в моих файлах присутствуют Michelle Obama
и Barack Obama
. список ключевых слов).
Проверка строки на количество вхождений каждого ключевого слова не очень эффективна. Мое приложение разработано на PHP, но любой язык в порядке, если я могу сделать это эффективно.
Я пробовал OpenCalais, но он не обнаруживает большинство моих ключевых слов. Можно ли извлечь ключевые слова с помощью Lucene?