Для чтения из crawlDb вы можете использовать класс CrawlDBReader (пакет org.apache.nutch.crawl).Чтобы удалить / удалить URL из crawlDb, вы можете использовать попробуйте использовать класс CrawlDBMerger (org.apache.nutch.crawl) с опцией "-filter".Но я предлагаю написать Mapreduce для удаления URL в соответствии с вашими потребностями.