Question

Как я могу дать команду Nutch обрабатывать страницу № 1 как принадлежащую ядру, а страницу № 2 как принадлежащую другому ядру (обе страницы из одного домена)?

Практическая ситуация: скажем, Nutch сканирует и индексирует www.businessweek.com; давайте также скажем, что у меня есть одно ядро под названием «Япония» и другое ядро под названием «Франция».

Я хочу, чтобы страница http://www.businessweek.com/magazine/content/05_51/b3964049.htm была проиндексирована только для ядра Франции, поскольку она актуальна для Франции, но не важна для Японии.

Следовательно, я хочу, чтобы страница http://www.businessweek.com/magazine/content/11_27/b4235016555525.htm была проиндексирована только для ядра Японии, но не для Франции.

Предполагая, что мы уже знаем, как определить, что определенная страница принадлежит определенному тегу ... как Nutch может быть проинструктирован об этом?

mana · Answer 1 · 02 июля 2012

Nutch работает только с одним индексом afaik.Либо страница сканируется и индексируется, либо нет.Вы можете использовать Regex URL Filters для предотвращения сканирования некоторых страниц.

К сожалению, продвигаемые вами страницы совершенно идентичны.Заголовки идентичны, за исключением тега заголовка.Вы также не можете получить какую-либо информацию из URL.

Если в заголовке вашего вопроса есть опечатка и вы хотите добавить разные страницы в разные ядра Solr, вы можете сделать следующее:

Добавить все страницы в оба ядра solr
Выполнить запрос на удаление для французского ядра, где вы удаляете все, что не соответствует определенным критериям:

curl $ FRENCH_SERVER / update -H "Тип содержимого: текст / xml" --data-binary ' НЕ заголовок: французский ' 2 &> 1 curl $ JAPANESE_SERVER / update -H "Content-Type: text / xml" --data-binary ' НЕ название: Япония ' 2 &> 1

(эти команды не тестируются, выполнитеэто на свой страх и риск:).

Разные страницы для разных ядер Nutch (в пределах одного домена)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разные страницы для разных ядер Nutch (в пределах одного домена)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы