Распознавание звукового сигнала для запуска и остановки записи потока MP3 - PullRequest
0 голосов
/ 25 января 2020

Я пытаюсь создать сценарий Python, который бы записывал местные новости из целого rnet радио (MP3) потока, например этот . Сегмент новостей начинается и заканчивается двумя разными звуковыми сигналами.

До сих пор мое решение было очень медленным и неоптимизированным:

  1. Используйте crontab для запуска скрипта (новости вещание каждый час).
  2. Запись потока в течение фиксированного промежутка времени.
  3. Преобразование записи из MP3 в WAV.
  4. Использование Корреляция Пирсона для набора данных с пониженной дискретизацией (для более быстрого выполнения) для сравнения записанного WAV-файла с WAV-файлом звукового сигнала.
  5. Поиск наибольшего коэффициента корреляции Пирсона и вычисление времени, в которое происходит звуковой сигнал в записанном файл.
  6. Вырежьте записанный аудиофайл в расчетное время.

Нет необходимости говорить, что мое решение ужасно.

Идеальным решением было бы всегда слушать поток и начинать / останавливать запись только тогда, когда раздаются звуковые сигналы.

Любая идея, как я мог сделать sh что?

PS: Когда я искал в Google почти все статьи Они имеют дело с распознаванием речи и другими использования AI-классификаторов (таких как Tensorflow), что, я думаю, немного излишне для распознавания простого гудка.

Спасибо за все подсказки и / или предложения.

...