Вы можете использовать это для просмотра статистики и статуса (извлечено, not_modified, прошло ...)
bin/nutch readdb crawl/crawldb/ -stats
Или вы можете сбросить crawldb, чтобы увидеть все URL, которые были просканированы с их статусом
bin/nutch readdb crawl/crawldb/ -dump whole_db
vi whole_db/part-r-00000