удалить URL из crawldb в Nutch 1,3? - PullRequest
       19

удалить URL из crawldb в Nutch 1,3?

0 голосов
/ 14 ноября 2011

Я ползаю сайты в нутче 1.3. теперь я хочу удалить URL из crawldb, как я могу это сделать? как я читаю из crawldb? Я хочу увидеть URL, которые существуют в crawldb.

1 Ответ

0 голосов
/ 15 ноября 2011

Для чтения из crawlDb вы можете использовать класс CrawlDBReader (пакет org.apache.nutch.crawl).Чтобы удалить / удалить URL из crawlDb, вы можете использовать попробуйте использовать класс CrawlDBMerger (org.apache.nutch.crawl) с опцией "-filter".Но я предлагаю написать Mapreduce для удаления URL в соответствии с вашими потребностями.

...