Question

Мы запускаем h2o на AWS и обучаем модель с набором данных CSV 14 ГБ на алгоритме GBM, он достигает 36%, а затем дает сбой с ошибкой:

«Пространство кучи Java», вызванное java.lang.OutOfMemoryError: Пространство кучи Java

Вот спецификации для нашей среды:

h2o Cluster Version: 3.17.0.4153
R Version: 3.4.3
java version "1.8.0_77"
Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)
Algorithm: GBM
Training DataSet: CSV with 1000 cols, 2,695,297 lines, that is 14gb in size
AWS:
Model       vCPU    Mem (GiB)    Storage
t2.2xlarge  8       32           EBS-Only

Вопросы:

Сколько памяти требуется для обучения GBM на наборе данных такого размера?

Есть ли какая-нибудь конфигурация, которую мы можем сделать, чтобы заставить h20 лучше управлять памятью? Например; использовать доступную память до предела, а затем поток без сбоев или что-то ...

Если это занимает много времени и заканчивается, по крайней мере, у вас есть модель. На самом деле мы просто хотим что-то, что не подведет ... На данный момент единственный ответ - это попробовать меньший набор данных ... и каждая попытка тренировки тратит время и деньги.

Мы относительно новички в этом, поэтому любая помощь очень ценится. Если вам нужно больше деталей, просто дайте мне знать, что вам нужно.

Спасибо за ваше время.

Обновление:

Таким образом, у нас был установлен параметр java -Xmx, равный 14g, и мы увеличили его до 25g, и это позволило ему продолжить.

TomKraljevic · Answer 1 · 31 октября 2018

Я рекомендую 4-5x размер набора данных. Так как минимум 64 гб.

Построение модели в H2o.AI при ошибке AWS Out of Memory

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Построение модели в H2o.AI при ошибке AWS Out of Memory

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы