Мы запускаем h2o на AWS и обучаем модель с набором данных CSV 14 ГБ на алгоритме GBM, он достигает 36%, а затем дает сбой с ошибкой:
«Пространство кучи Java», вызванное java.lang.OutOfMemoryError: Пространство кучи Java
Вот спецификации для нашей среды:
h2o Cluster Version: 3.17.0.4153
R Version: 3.4.3
java version "1.8.0_77"
Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)
Algorithm: GBM
Training DataSet: CSV with 1000 cols, 2,695,297 lines, that is 14gb in size
AWS:
Model vCPU Mem (GiB) Storage
t2.2xlarge 8 32 EBS-Only
Вопросы:
Сколько памяти требуется для обучения GBM на наборе данных такого размера?
Есть ли какая-нибудь конфигурация, которую мы можем сделать, чтобы заставить h20 лучше управлять памятью? Например; использовать доступную память до предела, а затем поток без сбоев или что-то ...
Если это занимает много времени и заканчивается, по крайней мере, у вас есть модель.
На самом деле мы просто хотим что-то, что не подведет ... На данный момент единственный ответ - это попробовать меньший набор данных ... и каждая попытка тренировки тратит время и деньги.
Мы относительно новички в этом, поэтому любая помощь очень ценится. Если вам нужно больше деталей, просто дайте мне знать, что вам нужно.
Спасибо за ваше время.
Обновление:
Таким образом, у нас был установлен параметр java -Xmx, равный 14g, и мы увеличили его до 25g, и это позволило ему продолжить.