Sunspot / Solr / Lucene: Найти похожую статью - PullRequest
2 голосов
/ 01 марта 2011

Допустим, у нас есть список статей, которые проиндексированы с помощью sunspot / solr / lucene (или любой другой поисковой системы).

Как можно найти похожие статьи по данной статье?

Должно ли это быть сделано с помощью инструмента возобновления, например: http://www.wordsfinder.com/api_Keyword_Extractor.php, или termextract от http://developer.yahoo.com/yql/console, или http://www.alchemyapi.com/api/demo.html?

Ответы [ 2 ]

5 голосов
/ 01 марта 2011

Кажется, вам нужна функция MoreLikeThis .

1 голос
/ 01 марта 2011

То, что вы пытаетесь сделать, очень похоже на задачу, которую я изложил в этот ответ .

Короче говоря, вам нужно создать сводку для каждого документа, который вы можете использовать в качестве запроса для сравнения его с любым другим. Сводка документа может быть такой же простой, как и верхние N терминов в этом документе (исключая стоп-слова). Вы можете сгенерировать лучшие N терминов из документа Lucene довольно легко, без использования сторонних инструментов, для этого есть множество примеров SO и web .

...