Я довольно подробно изучаю, как отделить музыку от рекламы, чтобы получить только слова, упомянутые в рекламе.Я сталкивался с несколькими подходами с помощью librosa и pyaudio, где обсуждается настройка фильтра верхних / нижних частот.Я попробовал это, но музыка осталась в рекламе.
Другой подход, который я бы использовал, - это диаризация динамика.Тем не менее, я пока не знаю, как решить проблему.Существует несколько архитектур Deep Learning, но они, вероятно, не могут различить музыку и не музыку.
У кого-нибудь есть идеи для этого лучше?
Приветствия, Andi