Извлечение звука из голоса - PullRequest
0 голосов
/ 16 марта 2011

Я хотел бы извлечь высоту из поющего голоса. Данный трек содержит только один голос и никаких других звуков.

Я хочу знать громкость и воспринимаемую частоту звука в данный момент времени. Так что-то вроде следующего:

0.0sec 400Hz -20dB
0.1sec 401Hz -9dB
0.2sec 403Hz -10dB
0.3sec 403Hz -10dB
0.4sec 404Hz -11dB
0.5sec 406Hz -13dB
0.6sec 410Hz -15dB
0.7sec 411Hz -16dB
0.8sec 409Hz -20dB
0.9sec 407Hz -24dB
1.0sec 402Hz -34dB

Как я могу добиться такого выхода? Меня интересуют небольшие изменения в частоте по сравнению с конкретным значением ноты. У меня есть некоторые знания DSP, и я могу программировать на C ++ и Python, но я бы хотел, если возможно, не изобретать велосипед заново.

Ответы [ 2 ]

1 голос
/ 13 ноября 2011

Предлагаю вам прочитать эту статью http://audition.ens.fr/adc/pdf/2002_JASA_YIN.pdf , Это один из самых простых методов определения высоты тона, и он работает очень хорошо. Кроме того, для измерения мгновенной мощности сигнала вы можете просто взять абсолютное значение сигнала и разделить на 1 / √2 (дает среднеквадратичное значение), а затем сгладить его (обычно фильтр нижних частот первого порядка). Надеюсь, это поможет. Удачи!

1 голос
/ 16 марта 2011

Обратите внимание, что незначительные изменения частоты в Гц и воспринимаемого шага могут не совпадать. Воспринимаемое разрешение основного тона, кажется, изменяется с абсолютной частотой, продолжительностью и громкостью. Если вам нужна более высокая точность, чем эта, могут быть некоторые исследовательские работы по оценке времени между каждым глотковым закрытием (возможно, с использованием деконволюции или техники сопоставления с образцом), которая даст вам некоторый период основного тона. Простейшей оценкой основного тона может быть некоторая форма взвешенной автокорреляции, для которой доступно множество стандартных алгоритмов и кода.

Поскольку дБ является логарифмической шкалой, эта мера может быть несколько ближе к воспринимаемой громкости, но должна быть спектрально взвешена с некоторой кривой воспринимаемой частотной характеристики в течение некоторой продолжительности измерения.

Похоже, есть исследовательские работы по обеим этим темам, а также множество учебников по восприятию звука человеком, а также по распространенным методам обработки звука DSP.

...