Lucene, чтобы добавить дополнительный импульс при первом появлении термина - PullRequest
1 голос
/ 26 января 2011

Я работаю в системе, которая будет использовать Apache Lucene для анализа и ранжирования группы содержимого веб-страницы из другого источника,

проблема, с которой я столкнулся сейчас, в результате всегда показывает, что группа страниц сначала поступала из одного и того же источника, когда источник имел более 1 страницы с лучшим весом.

это возможно для меня, чтобы использовать lucene option для дальнейшего уточнения результата, поэтому в списке будет отображаться только первое вхождение для источника, а оставшиеся будут перетаскиваться вниз до конца списка результатов, чтобы, по крайней мере, пользователь мог сначала просмотрите другой результат из другого источника, вместо того, чтобы видеть полный список контента из того же источника на первых нескольких страницах ....

1 Ответ

2 голосов
/ 26 января 2011

Последняя (неизданная) версия Solr (которая построена поверх Lucene) имеет функцию, называемую свертыванием полей / результатов, которая группирует результаты на основе значения поля.Похоже, это то, что вы ищете:

http://wiki.apache.org/solr/FieldCollapsing

Если вы не хотите использовать Solr, вам придется реализовать это самостоятельно, перебирая результатустановить и изменить порядок на основе ваших критериев.Вам, вероятно, придется использовать FieldCache для своего поля «источника», чтобы это работало достаточно хорошо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...