Скажем, вы хотите взять набор фонетических данных CMU , который выглядит следующим образом:
ABERRATION AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS AE2 B ER0 EY1 SH AH0 N Z
ABERT AE1 B ER0 T
ABET AH0 B EH1 T
ABETTED AH0 B EH1 T IH0 D
ABETTING AH0 B EH1 T IH0 NG
ABEX EY1 B EH0 K S
ABEYANCE AH0 B EY1 AH0 N S
(Слово слева, справа серия фонем, клавиша здесь )
И вы хотите использовать его в качестве обучающих данных для системы машинного обучения, которая будет принимать новые слова и угадывать, как они будут произноситься на английском языке.
Это не так очевидно для меня, по крайней мере, потому что не существует фиксированного размера токена букв, который мог бы отображаться в фонему. У меня такое ощущение, что что-то связанное с цепью Маркова может быть правильным путем.
Как бы вы это сделали?