Я пытаюсь создать модель для обучения на большом массиве данных c. Миди-файлы конвертируются в numpy массивы. Поскольку LSTM требует последовательных данных, размер набора данных становится таким огромным при преобразовании в последовательность для LSTM.
Я конвертирую ноты midi в индекс на основе ключевого слова и продолжительности, поэтому я получаю 6 классов для ключа C4. Точно так же я получаю C3-B5, так что всего 288 классов вместе с классами для периодов отдыха.
Преобразованный формат одного миди выглядит следующим образом.
midi = [0,23,54,180,23,45,34,.....];
Для Обучая LSTM, x и y становятся
x = [[0,23,54..45],[23,54,..,34],...];
y=[[34],[76],...]
Значения в x и y далее преобразуются в однократное кодирование. Следовательно, размер данных становится огромным только для 60 маленьких файлов среднего размера, но у меня 1700 файлов. Как я могу обучить модель с таким количеством файлов. Я проверил ImageGenerator, но он требует, чтобы данные были в отдельных каталогах классов. Как этого добиться?