Я хочу тренировать модель на основе разных наборов данных. Наборы данных состоят из данных разных измерений. Например, в НЛП предложения имеют разную длину. Чтобы не тратить впустую вычислительные ресурсы, я не хочу дополнять 0, чтобы сделать их одинаковыми размерами. Как мне это сделать?
Я пробовал несколько подходов.
- Для l oop. Мой псевдокод выглядит следующим образом:
model = ...
for dataset in datasets:
model.fit(dataset)
gc.collect()
К сожалению, память (не память GPU) быстро заканчивается, даже при явной сборке мусора.
Генератор для наборов данных. К сожалению, сложно определить функцию формы, et c.
Большое спасибо!