Я хочу работать над проектом, в котором мне нужно сегментировать и классифицировать онлайн-аудиовизуальные данные на основе их аудиоконтента, т.е. различные части аудиовизуальных данных будут сегментированы и классифицированы как тишина, музыка, речь, речь + фоновая музыка и т. д. на основе их аудио контента.
Мне известно, что я должен получить аудио часть из аудиовизуальных данных и извлечь такие функции, как пересечение нуля, спектральные пики и т. Д., И определить границы сегментов, чтобы сегментировать аудиоданные.
Но я потерян в самом начале.
Я не знаю, как начать с проекта. Выходные данные программного обеспечения представляют собой сегменты аудиовизуальных данных в различных категориях, таких как тишина, речь, музыка и т. Д.
Будет очень полезно, если кто-нибудь даст мне знать
- Какой язык программирования удобен для этой цели?
- Какие шаги я должен выполнить для разработки этого программного обеспечения?
У меня нет фона в цифровой обработке сигналов. Будет очень полезно, если я получу некоторые указания