Это возможно, но маловероятно, если вы пытаетесь уловить основную частоту (F0) говорящего голоса.Вероятно, вместо этого вы захватываете более легко резонирующий обертон (например, F1 или F2).
Мои эксперименты с Praat создают у меня впечатление, что при хороших параметрах он надежно извлекает F0.
То, что вы хотите сделать, это проверить это, сравнив кривую основного тона со спектрограммой.Вот пример фитинга, изготовленного Praat (женский динамик):
Из изображения видно, что
- Наиболее заметная частота, по-видимому, F2
- Около 200 Гц, по-видимому, равна F0, так как ниже этого уровня есть только шум (по сравнению с до / после сегмента)
- Praat рассчитал хорошую оценкуF0 для сегментов вокализованной речи
Если после визуального осмотра кажется, что вы получаете неправильные результаты, вы можете попытаться настроить параметры.Длина окна сильно влияет на разрешение по частоте.
Если вы не можете зафиксировать частоты на столь низких частотах, попробуйте увеличить длину окна - интуиция заключается в том, что он дает алгоритму больше шансов найти медленно меняющиеся периодические элементы в данных.