Разные страницы для разных ядер Nutch (в пределах одного домена) - PullRequest
3 голосов
/ 11 октября 2011

Как я могу дать команду Nutch обрабатывать страницу № 1 как принадлежащую ядру, а страницу № 2 как принадлежащую другому ядру (обе страницы из одного домена)?

Практическая ситуация: скажем, Nutch сканирует и индексирует www.businessweek.com; давайте также скажем, что у меня есть одно ядро ​​под названием «Япония» и другое ядро ​​под названием «Франция».

Я хочу, чтобы страница http://www.businessweek.com/magazine/content/05_51/b3964049.htm была проиндексирована только для ядра Франции, поскольку она актуальна для Франции, но не важна для Японии.

Следовательно, я хочу, чтобы страница http://www.businessweek.com/magazine/content/11_27/b4235016555525.htm была проиндексирована только для ядра Японии, но не для Франции.

Предполагая, что мы уже знаем, как определить, что определенная страница принадлежит определенному тегу ... как Nutch может быть проинструктирован об этом?

1 Ответ

0 голосов
/ 02 июля 2012

Nutch работает только с одним индексом afaik.Либо страница сканируется и индексируется, либо нет.Вы можете использовать Regex URL Filters для предотвращения сканирования некоторых страниц.

К сожалению, продвигаемые вами страницы совершенно идентичны.Заголовки идентичны, за исключением тега заголовка.Вы также не можете получить какую-либо информацию из URL.

Если в заголовке вашего вопроса есть опечатка и вы хотите добавить разные страницы в разные ядра Solr, вы можете сделать следующее:

  • Добавить все страницы в оба ядра solr
  • Выполнить запрос на удаление для французского ядра, где вы удаляете все, что не соответствует определенным критериям:

    curl $ FRENCH_SERVER / update -H "Тип содержимого: текст / xml" --data-binary ' НЕ заголовок: французский ' 2 &> 1 curl $ JAPANESE_SERVER / update -H "Content-Type: text / xml" --data-binary ' НЕ название: Япония ' 2 &> 1

(эти команды не тестируются, выполнитеэто на свой страх и риск:).

...