Я уже некоторое время использую Apache Nutch, и он работает хорошо, пока мои выборки не превышают 1 миллион страниц. Но как только я попадаю в миллионы, updatedb работает вечно и никогда не заканчивается - я ждал дни и дни, почти неделю, один раз, чтобы он закончился.
Есть ли очевидная причина для этого? И если да, есть ли облегчение?
Я видел разговоры об использовании Hadoop вместо HBase, и я пытался использовать Hadoop, но столкнулся со многими проблемами. Но можно ли это исправить?
Вся помощь приветствуется.