Question

Я уже некоторое время использую Apache Nutch, и он работает хорошо, пока мои выборки не превышают 1 миллион страниц. Но как только я попадаю в миллионы, updatedb работает вечно и никогда не заканчивается - я ждал дни и дни, почти неделю, один раз, чтобы он закончился.

Есть ли очевидная причина для этого? И если да, есть ли облегчение?

Я видел разговоры об использовании Hadoop вместо HBase, и я пытался использовать Hadoop, но столкнулся со многими проблемами. Но можно ли это исправить?

Вся помощь приветствуется.

Apache Nutch бесконечно зависает на updatedb при работе с 1 миллионом + извлеченных страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Apache Nutch бесконечно зависает на updatedb при работе с 1 миллионом + извлеченных страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы