Nutch работает только с одним индексом afaik.Либо страница сканируется и индексируется, либо нет.Вы можете использовать Regex URL Filters для предотвращения сканирования некоторых страниц.
К сожалению, продвигаемые вами страницы совершенно идентичны.Заголовки идентичны, за исключением тега заголовка.Вы также не можете получить какую-либо информацию из URL.
Если в заголовке вашего вопроса есть опечатка и вы хотите добавить разные страницы в разные ядра Solr, вы можете сделать следующее:
- Добавить все страницы в оба ядра solr
Выполнить запрос на удаление для французского ядра, где вы удаляете все, что не соответствует определенным критериям:
curl $ FRENCH_SERVER / update -H "Тип содержимого: текст / xml" --data-binary ' НЕ заголовок: французский ' 2 &> 1 curl $ JAPANESE_SERVER / update -H "Content-Type: text / xml" --data-binary ' НЕ название: Япония ' 2 &> 1
(эти команды не тестируются, выполнитеэто на свой страх и риск:).