Большинство классификаторов требуют ввода фиксированного размера, да. Вы можете сделать это, вырезав или дополнив MFCC после того, как вы их вычислили Нет необходимости манипулировать WAV / осциллограммой, как таковой.
Другой подход - разделить ваши аудиофайлы на множественный анализ windows, скажем, по 1 секунде каждый. Затем 3-секундный файл может быть выполнен с 3-мя предсказаниями (или более, если используется наложение), тогда как 5-секундный файл будет принимать 5-и предсказаний (или более). Затем, чтобы получить предсказание по всему клипу, можно объединить предсказания по всем windows в клипе. Простой способ обучения таким образом требует предположения, что метка, заданная для клипа, действительна для каждого отдельного окна анализа.