Найти количество уже существующих документов в solr с заданием solrindexing в nutch - PullRequest
0 голосов
/ 07 ноября 2018

По сути, в задании solrindex мы можем рассчитать количество документов, которые были обновлены в solr, и количество документов, которые были проиндексированы как новые документы.

1 Ответ

0 голосов
/ 08 ноября 2018

Вы можете использовать это для просмотра статистики и статуса (извлечено, not_modified, прошло ...)

bin/nutch readdb crawl/crawldb/ -stats

Или вы можете сбросить crawldb, чтобы увидеть все URL, которые были просканированы с их статусом

bin/nutch readdb crawl/crawldb/ -dump whole_db
vi whole_db/part-r-00000
...