Question

Я ползаю сайты в нутче 1.3. теперь я хочу удалить URL из crawldb, как я могу это сделать? как я читаю из crawldb? Я хочу увидеть URL, которые существуют в crawldb.

Varshith · Answer 1 · 15 ноября 2011

Для чтения из crawlDb вы можете использовать класс CrawlDBReader (пакет org.apache.nutch.crawl).Чтобы удалить / удалить URL из crawlDb, вы можете использовать попробуйте использовать класс CrawlDBMerger (org.apache.nutch.crawl) с опцией "-filter".Но я предлагаю написать Mapreduce для удаления URL в соответствии с вашими потребностями.

удалить URL из crawldb в Nutch 1,3?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

удалить URL из crawldb в Nutch 1,3?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы