Возьмите самый высокий пик на спектрограмме, который находится в диапазоне для голоса (скажем, от 400 до 10 кГц). Это должно дать вам основную частоту.
В качестве альтернативы вам может потребоваться интегрировать гистограмму частот. Это потому, что иногда у вас есть слова, которые начинаются с или содержат сибиланты (звуки "s") и фрикативные звуки (звуки "f" и "th"), которые имеют довольно высокие частоты и широкий спектр. Вы не хотите пропустить начало речи, потому что оно началось с чего-то другого, кроме гласной.
Еще один фактор - это то, что вы могли бы услышать, кроме голоса. Много ли фонового шума? Какие? Если их нет, достаточно только наличия звука. Если, например, есть музыка, то у вас совершенно другая задача. Если вы пытаетесь провести различие между голосом и некоторыми другими звуками, то у меня возникнет соблазн попробовать подход с использованием нейронной сети - вероятно, он потребует такого уровня сложности.