Question

Я использую программу-обходчик Nutch 1.16, Had oop 2.83, Solr 8.5.1, которая отлично работает до нескольких миллионов проиндексированных страниц. Затем я сталкиваюсь с проблемами Java Heap Space во время задания MapReduce, и я просто не могу найти правильный способ увеличить это пространство кучи. Я пробовал:

Передача -D mapreduce.map.memory.mb=24608 -D mapreduce.map.java.opts=-Xmx24096m при запуске Nutch Crawl.
Редактирование NUTCH_HOME / bin / crawl commonOptions mapred.child. java .opts to -Xmx16000m
Установка HADOOP_HOME / etc / hadoop / mapred-site. xml mapred.child. java .opts на -Xmx160000m -XX:+UseConcMarkSweepGC
Копирование указанного mapred-site. xml в мой nutch / conf

Кажется, это ничего не меняет. Я сталкиваюсь с той же ошибкой пространства кучи в тот же момент в процессе сканирования. Я попытался уменьшить количество потоков извлечения до 12 с 25 и отключить синтаксический анализ во время выборки. Ничего не изменилось, и у меня нет идей. У меня 64 ГБ ОЗУ, так что это не проблема. Пожалуйста, помогите;)

EDIT: исправлено имя файла для mapred-site. xml

Sebastian Nagel · Answer 1 · 26 мая 2020

Передается -D ...

Пространство кучи должно быть установлено также для задачи сокращения с помощью «mapreduce.reduce.memory.mb» и «mapreduce. .reduce. java .opts ". Обратите внимание, что скрипт bin / crawl был недавно улучшен в этом отношении, см. NUTCH-2501 и недавний bin / crawl script .

3. / 4. При настройке / копировании использовался oop -site. xml

Разве это не должно быть установлено в "mapred-site. xml"?

У Nutch было oop уменьшение карты java место в куче outOfMemory

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

У Nutch было oop уменьшение карты java место в куче outOfMemory

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы