Я хочу разделить речевой файл на несколько блоков фонем.
Я видел несколько советов. например. CMUSphinx.
Но мне нужно преобразовать в фонему (звук), а не слово (текст).
Я видел декодирование Витерби и дискретные вейвлет-преобразования.
Но я не знаю, каков наилучший способ сегментации фонем.