Подготовка аудиофайлов MF CC - все ли файлы WAV должны быть одинаковой длины? - PullRequest
0 голосов
/ 01 марта 2020

Я хотел бы подготовить набор аудиоданных для модели машинного обучения.

Каждый файл .wav должен быть представлен в виде изображения MF CC.

Хотя все изображения будут иметь одинаковое количество MF CC (= 20), длина файлов .wav составляет 3-5 секунд.

Должен ли я манипулировать всеми файлы .wav имеют одинаковую длину? Должен ли я нормализовать значения MF CC (между 0 и 1) до начала печати?

Есть ли какие-либо важные шаги, которые необходимо выполнить с такими данными, прежде чем передавать их в модель машинного обучения?

Также приветствуются ссылки для чтения.

1 Ответ

0 голосов
/ 08 марта 2020

Большинство классификаторов требуют ввода фиксированного размера, да. Вы можете сделать это, вырезав или дополнив MFCC после того, как вы их вычислили Нет необходимости манипулировать WAV / осциллограммой, как таковой.

Другой подход - разделить ваши аудиофайлы на множественный анализ windows, скажем, по 1 секунде каждый. Затем 3-секундный файл может быть выполнен с 3-мя предсказаниями (или более, если используется наложение), тогда как 5-секундный файл будет принимать 5-и предсказаний (или более). Затем, чтобы получить предсказание по всему клипу, можно объединить предсказания по всем windows в клипе. Простой способ обучения таким образом требует предположения, что метка, заданная для клипа, действительна для каждого отдельного окна анализа.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...