Я пытаюсь проанализировать аудиофайл на основе амплитуды.
Сценарий эксперимента здесь таков: я записываю сэмпл с моего ноутбука в моей гостиной, телевизор работает в фоновом режиме, а человек, сидящий в той же комнате, кричит. Я должен обнаружить крик или, если было что-то ненормальное.
Как я пытаюсь реализовать это, беря пиковую амплитуду из записанного образца, и если она превышает определенное значение, то я могу сказать, что это, вероятно, крик или что-то ненормальное. Теперь мне нужно найти способ вычислить порог для амплитуды, чтобы я мог классифицировать все, что выше, на крике (что-то ненормальное).
Я знаю, что это не идеальный способ обнаружения крика, но это не моя основная задача. Моя главная цель - найти что-то ненормальное.
Я использую библиотеку librosa Python для анализа аудиофайла, который дает мне список амплитуд и временной шкалы.
На этом графике мы можем наблюдать, что существует пик, и этот пик в действительности является криком человека.
Один из моих друзей сказал мне использовать стандартное отклонение и среднее значение, но я не уверен, как мне использовать их для расчета порога.
Моя конечная цель - получить кумулятивный порог, то есть рассчитать порог для текущей выборки, который также будет зависеть от порога предыдущих выборок.