используя Apache Nutch, URL-адреса для инъекций и выборки topN приносят только 1 URL - PullRequest
0 голосов
/ 23 февраля 2019

Веб-страница, которую я использую в seed.text, содержит несколько ссылок, почти 500. Но, сохраняя исходную ссылку в файле seed.text, URL-адрес инъекции / работает отлично и получает точное количество URL-адресов из файла.

Однако, как только я начинаю использовать команду generate -topN, чтобы сказать 30 URL, он возвращает только 1 URL.Я пробовал с разными номерами и одинаковыми (1 URL) каждый раз.Я также попытался использовать цикл fetch-parse-update, и результат все тот же.

Есть ли какая-либо конфигурация, которую мне нужно изменить, чтобы после получения исходного URL-адреса генерировался весь список изатем сканировать все из них. Может быть любое свойство или изменение файла XML.Ниже приведен снимок команды «generate -topN 10»

abhisar @ abhisarproject: ~ / apache-nutch-2.3.1 $ runtime / local / bin / nutch generate -topN 10 GeneratorJob: начиная с 2019-02-23 13:53:07 GeneratorJob: Выбор URL-адресов с наибольшим количеством баллов за выборку.GeneratorJob: запуск GeneratorJob: фильтрация: true GeneratorJob: нормализация: true GeneratorJob: topN: 10 GeneratorJob: завершено в 2019-02-23 13:53:13, время истекло: 00:00:06 GeneratorJob: сгенерированный пакетный идентификатор: 1550926387-1197294614содержащий 1 URL

Заранее спасибо

...