Как я могу рассчитать порог для амплитуды на аудиосэмпле, чтобы я мог классифицировать его соответственно - PullRequest
0 голосов
/ 23 мая 2019

Я пытаюсь проанализировать аудиофайл на основе амплитуды. Сценарий эксперимента здесь таков: я записываю сэмпл с моего ноутбука в моей гостиной, телевизор работает в фоновом режиме, а человек, сидящий в той же комнате, кричит. Я должен обнаружить крик или, если было что-то ненормальное.

Как я пытаюсь реализовать это, беря пиковую амплитуду из записанного образца, и если она превышает определенное значение, то я могу сказать, что это, вероятно, крик или что-то ненормальное. Теперь мне нужно найти способ вычислить порог для амплитуды, чтобы я мог классифицировать все, что выше, на крике (что-то ненормальное). Я знаю, что это не идеальный способ обнаружения крика, но это не моя основная задача. Моя главная цель - найти что-то ненормальное.

Я использую библиотеку librosa Python для анализа аудиофайла, который дает мне список амплитуд и временной шкалы.

amplitude vs time plot of one of my sample

На этом графике мы можем наблюдать, что существует пик, и этот пик в действительности является криком человека.

Один из моих друзей сказал мне использовать стандартное отклонение и среднее значение, но я не уверен, как мне использовать их для расчета порога.

Моя конечная цель - получить кумулятивный порог, то есть рассчитать порог для текущей выборки, который также будет зависеть от порога предыдущих выборок.

...