Как проиндексировать URL в SOLR, чтобы я мог повысить результаты после веб-сайта - PullRequest
4 голосов
/ 08 сентября 2011

В моем SOLR проиндексированы тысячи документов, представляющих данные, сканированные с разных веб-сайтов. Одним из полей документа является SourceURL, который содержит URL веб-страницы, которую я просканировал и проиндексировал в этом документе.

Я хочу повысить результаты с определенного веб-сайта, используя запрос на повышение. Например, у меня есть 4 документа, каждый из которых содержит в SourceURL следующие данные

  1. https://meta.stackoverflow.com/page1
  2. http://www.stackoverflow.com/page2
  3. https://stackoverflow.com/page3
  4. http://stackexchange.com/page1

Я хочу повысить все результаты, полученные на stackoverflow.com, а не на поддоменах (в данном случае результаты 2 и 3).

Знаете ли вы, как я могу проиндексировать поле URL, а затем использовать расширенный запрос для идентификации всех документов с определенного веб-сайта, как в случае выше?

1 Ответ

3 голосов
/ 08 сентября 2011

Один из способов - проанализировать URL-адрес до начала индекса и указать, является ли он основным доменом (например, логическое поле primarydomain в вашем файле schema.xml).

Затем вы можете увеличить поле primarydomain в результатах запроса.Смотрите пример использования DisMaxQParserPlugin из Solr Wiki для примера того, как увеличить поля во время запроса.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...