У меня очень длинный фрейм данных (25 миллионов строк x 500 столбцов), к которому я могу получить доступ как файл CSV или файл паркета, но могу загрузить в оперативную память моего P C.
Данные должны быть соответствующим образом сформированы для того, чтобы стать входными данными для модели Keras LSTM (Tensorflow 2), учитывая желаемое количество временных меток на выборку и желаемое количество выборок на серию.
Хотя это описывает реальную ситуацию, с которой я сталкиваюсь, чтобы упростить вещи и сделать их конкретными и воспроизводимыми, давайте предположим, что кадр данных имеет форму 1000 строк по 3 столбца, где первые два столбца являются объектами, а последний является целью, а каждая строка соответствует временной отметке. , Предположим далее, что мы хотели бы преобразовать данные таким образом, чтобы каждая выборка содержала 5 временных шагов, имеющих в качестве цели метку, соответствующую последней (самой последней) временной отметке. Мы хотим передать данные в модель keras lstm с пакетами, содержащими каждые 32 образца.
Данные находятся на нашем жестком диске в формате CSV или в виде паркета. Мы не можем загрузить все данные в нашу оперативную память.
Как бы мы go об этом? В частности, можем ли мы использовать генератор TensorFlow для достижения sh этой цели и как? Как мне найти решение, используя приведенные выше примеры спецификаций?