В настоящее время я пытаюсь обучить нейронную сеть с помощью MFCC. Я получил функцию, в которой я придумал 12 коэффициентов для каждого кадра, в котором было разделено аудио. MFCC имеет формат 13 * 7586 двойной. У меня вопрос, как я могу обучить сеть с коэффициентами MFCC. А как насчет маркировки данных?
![mfcc1](https://i.stack.imgur.com/9GHaX.png)
![mfcc2](https://i.stack.imgur.com/HINRj.png)