Извлечение функции для поиска ключевых слов на аудио в длинных формах с использованием CNN - PullRequest
1 голос
/ 26 апреля 2019

Я построил простой детектор слов CNN, который точно способен предсказать данное слово при использовании 1-секундного .wav в качестве ввода. Как представляется, стандарт, я использую MFCC аудиофайлов в качестве входных данных для CNN.

Однако моя цель состоит в том, чтобы иметь возможность применить это к более длинным аудиофайлам с произносимыми несколькими словами, и чтобы модель могла предсказать, произойдет ли и когда произойдет данное слово. Я искал в Интернете, как лучше всего подходить, но, кажется, бьется в стену, и я искренне извиняюсь, если бы ответ был легко найден через Google.

Моя первая мысль - разрезать аудиофайл на несколько окон продолжительностью 1 секунда, которые пересекаются друг с другом -

a busy cat

, а затем преобразовать каждое окно в MFCC и использовать их в качестве входных данных для прогнозирования модели.

Моя вторая мысль состояла бы в том, чтобы вместо этого использовать обнаружение начала в попытках изолировать каждое слово, добавить отступ, если слово было <1 секунда, и затем передать их в качестве входных данных для прогнозирования модели. </p>

Я здесь далеко? Любые ссылки или рекомендации будут с благодарностью. Спасибо.

1 Ответ

1 голос
/ 22 мая 2019

Разрезание аудио по окнам анализа - лучший способ.Обычно используется некоторое перекрытие.Функции MFCC могут быть сначала вычислены, а затем разделены, используя целое число кадров, которое приближает вас к требуемой длине окна (1 с).

См. Как использовать контекстное окно для сегментированияЦелый журнал Mel-спектрограмм (обеспечивающий одинаковое количество сегментов для всех аудио)? например код

...