Apache Nutch бесконечно зависает на updatedb при работе с 1 миллионом + извлеченных страниц - PullRequest
0 голосов
/ 01 ноября 2018

Я уже некоторое время использую Apache Nutch, и он работает хорошо, пока мои выборки не превышают 1 миллион страниц. Но как только я попадаю в миллионы, updatedb работает вечно и никогда не заканчивается - я ждал дни и дни, почти неделю, один раз, чтобы он закончился.

Есть ли очевидная причина для этого? И если да, есть ли облегчение?

Я видел разговоры об использовании Hadoop вместо HBase, и я пытался использовать Hadoop, но столкнулся со многими проблемами. Но можно ли это исправить?

Вся помощь приветствуется.

...