У Nutch было oop уменьшение карты java место в куче outOfMemory - PullRequest
0 голосов
/ 26 мая 2020

Я использую программу-обходчик Nutch 1.16, Had oop 2.83, Solr 8.5.1, которая отлично работает до нескольких миллионов проиндексированных страниц. Затем я сталкиваюсь с проблемами Java Heap Space во время задания MapReduce, и я просто не могу найти правильный способ увеличить это пространство кучи. Я пробовал:

  1. Передача -D mapreduce.map.memory.mb=24608 -D mapreduce.map.java.opts=-Xmx24096m при запуске Nutch Crawl.
  2. Редактирование NUTCH_HOME / bin / crawl commonOptions mapred.child. java .opts to -Xmx16000m
  3. Установка HADOOP_HOME / etc / hadoop / mapred-site. xml mapred.child. java .opts на -Xmx160000m -XX:+UseConcMarkSweepGC
  4. Копирование указанного mapred-site. xml в мой nutch / conf

Кажется, это ничего не меняет. Я сталкиваюсь с той же ошибкой пространства кучи в тот же момент в процессе сканирования. Я попытался уменьшить количество потоков извлечения до 12 с 25 и отключить синтаксический анализ во время выборки. Ничего не изменилось, и у меня нет идей. У меня 64 ГБ ОЗУ, так что это не проблема. Пожалуйста, помогите;)

EDIT: исправлено имя файла для mapred-site. xml

1 Ответ

1 голос
/ 26 мая 2020
  1. Передается -D ...

Пространство кучи должно быть установлено также для задачи сокращения с помощью «mapreduce.reduce.memory.mb» и «mapreduce. .reduce. java .opts ". Обратите внимание, что скрипт bin / crawl был недавно улучшен в этом отношении, см. NUTCH-2501 и недавний bin / crawl script .

3. / 4. При настройке / копировании использовался oop -site. xml

Разве это не должно быть установлено в "mapred-site. xml"?

...