Анализ аудио контента для онлайн аудиовизуальных данных - PullRequest
0 голосов
/ 04 февраля 2012

Я хочу работать над проектом, в котором мне нужно сегментировать и классифицировать онлайн-аудиовизуальные данные на основе их аудиоконтента, т.е. различные части аудиовизуальных данных будут сегментированы и классифицированы как тишина, музыка, речь, речь + фоновая музыка и т. д. на основе их аудио контента.

Мне известно, что я должен получить аудио часть из аудиовизуальных данных и извлечь такие функции, как пересечение нуля, спектральные пики и т. Д., И определить границы сегментов, чтобы сегментировать аудиоданные.

Но я потерян в самом начале.

Я не знаю, как начать с проекта. Выходные данные программного обеспечения представляют собой сегменты аудиовизуальных данных в различных категориях, таких как тишина, речь, музыка и т. Д.

Будет очень полезно, если кто-нибудь даст мне знать

  • Какой язык программирования удобен для этой цели?
  • Какие шаги я должен выполнить для разработки этого программного обеспечения?

У меня нет фона в цифровой обработке сигналов. Будет очень полезно, если я получу некоторые указания

1 Ответ

0 голосов
/ 27 февраля 2012

Я бы посоветовал взглянуть на мультимедийную среду, такую ​​как GStreamer . Это кроссплатформенный, но самый простой способ начать работу с Linux, откуда он происходит. Он уже поставляется со всеми видами плагинов для получения, демультиплексирования и декодирования аудио и видео. Он также имеет несколько анализаторов (таких как анализаторы уровня и спектра для аудио, а также для обнаружения голосовой активности). Это может стать хорошей отправной точкой для ваших экспериментов. Сам Gstreamer написан на C, но приложения могут использовать привязки языка к python, perl, c #, c ++, java, ...

...