Я пытаюсь создать сценарий Python, который бы записывал местные новости из целого rnet радио (MP3) потока, например этот . Сегмент новостей начинается и заканчивается двумя разными звуковыми сигналами.
До сих пор мое решение было очень медленным и неоптимизированным:
- Используйте crontab для запуска скрипта (новости вещание каждый час).
- Запись потока в течение фиксированного промежутка времени.
- Преобразование записи из MP3 в WAV.
- Использование Корреляция Пирсона для набора данных с пониженной дискретизацией (для более быстрого выполнения) для сравнения записанного WAV-файла с WAV-файлом звукового сигнала.
- Поиск наибольшего коэффициента корреляции Пирсона и вычисление времени, в которое происходит звуковой сигнал в записанном файл.
- Вырежьте записанный аудиофайл в расчетное время.
Нет необходимости говорить, что мое решение ужасно.
Идеальным решением было бы всегда слушать поток и начинать / останавливать запись только тогда, когда раздаются звуковые сигналы.
Любая идея, как я мог сделать sh что?
PS: Когда я искал в Google почти все статьи Они имеют дело с распознаванием речи и другими использования AI-классификаторов (таких как Tensorflow), что, я думаю, немного излишне для распознавания простого гудка.
Спасибо за все подсказки и / или предложения.