Я подхожу к такой задаче, разбивая файл wav на блоки, скажем, по 0,05 секунды каждый, вычисляя среднеквадратичную амплитуду каждого блока и сравнивая среднеквадратичное значение с порогом.Если запись выполняется в тщательно контролируемых условиях и объем речи относительно хорошо нормализован, порог может быть статическим значением, но другой способ сделать это - динамически, проверяя блок, который существенно громче, чем предыдущий блок.Затем вы рассматриваете блок с превышением порога как начало слова.
Однако в обычной речи между словами может не быть большой паузы.Если я скажу вам «helloworld» без паузы, вы легко поймете меня.
Среднеквадратичная амплитуда определяется как квадратный корень из среднего значения по времени квадратов отдельных выборок.