Я работаю над системой непрерывного распознавания речи. Мои данные содержат специальные слова, а размер данных небольшой / ограниченный. Я хочу сегментировать аудиофайлы за 2-3 секунды. Я видел pyAudioAnalysis, но он не работает, потому что на моем аудио есть инструмент, играющий на заднем плане. Как я могу сегментировать данные с такими требованиями?