Добавление регулярных выражений фильтра URL через API Nutch Rest - PullRequest
0 голосов
/ 24 января 2019

Я использую Nutch версии 1.12 для сканирования URL.Мне нужно сканировать только некоторые конкретные URL.Я знаю, что URL могут быть отфильтрованы с помощью записей в файле regex-urlfilter.Я хочу знать, есть ли какая-либо опция, доступная в Nutch REST API, для добавления к этим файлам динамических регулярных выражений URL, точно так же, как свойства nutch-site.xml.

1 Ответ

0 голосов
/ 24 января 2019

Насколько я помню, вы можете изменить конфигурацию (с помощью клавиши urlfilter.regex.file), но напрямую изменить файл (regex-urlfilter.txt по умолчанию) невозможно.Вы можете иметь разные файлы, а затем изменить конфигурацию так, чтобы она указывала на другую и перезапустить задание.

Раньше я делал что-то для динамического изменения параметров сканирования (включая фильтры) из веб-интерфейса.Это было до того, как у нас был REST API.В этом случае пользовательский компонент загружает информацию / параметры конфигурации из базы данных.

...