Я использую программу-обходчик Nutch 1.16, Had oop 2.83, Solr 8.5.1, которая отлично работает до нескольких миллионов проиндексированных страниц. Затем я сталкиваюсь с проблемами Java Heap Space во время задания MapReduce, и я просто не могу найти правильный способ увеличить это пространство кучи. Я пробовал:
- Передача
-D mapreduce.map.memory.mb=24608 -D mapreduce.map.java.opts=-Xmx24096m
при запуске Nutch Crawl. - Редактирование NUTCH_HOME / bin / crawl commonOptions mapred.child. java .opts to
-Xmx16000m
- Установка HADOOP_HOME / etc / hadoop / mapred-site. xml mapred.child. java .opts на
-Xmx160000m -XX:+UseConcMarkSweepGC
- Копирование указанного mapred-site. xml в мой nutch / conf
Кажется, это ничего не меняет. Я сталкиваюсь с той же ошибкой пространства кучи в тот же момент в процессе сканирования. Я попытался уменьшить количество потоков извлечения до 12 с 25 и отключить синтаксический анализ во время выборки. Ничего не изменилось, и у меня нет идей. У меня 64 ГБ ОЗУ, так что это не проблема. Пожалуйста, помогите;)
EDIT: исправлено имя файла для mapred-site. xml