Nutch 1.6 не ищет новые записи в seed.txt - PullRequest
1 голос
/ 05 мая 2020

Я установил Solr 7.7.1 и Nutch 1.6 и провел тестовый поиск. Для этого я помещаю URL-адрес в seed.txt, и все работает нормально. После этого теста я удалил старое ядро ​​в Solr, создал новое ядро ​​и поместил несколько URL-адресов в seed.txt и снова запустил Nutch для нового сканирования. Но при каждой попытке я получал результаты предыдущего пробного запуска. Как мне удалить предыдущий поиск и запустить Nutch для сканирования новых URL-адресов, которые я ввел в seed.txt?

Заранее благодарим за ответы.

1 Ответ

0 голосов
/ 05 мая 2020

Вам следует удалить каталог crawl/ (если он называется crawl). Этот каталог содержит ранее просканированные данные (до их отправки в Solr). Вероятно, нет нового контента после того, как вы запустите команду сканирования, и Nutch отправляет уже сохраненные данные в Solr.

...