Задача машинного обучения: выучить английское произношение - PullRequest
4 голосов
/ 23 марта 2009

Скажем, вы хотите взять набор фонетических данных CMU , который выглядит следующим образом:

ABERRATION  AE2 B ER0 EY1 SH AH0 N
ABERRATIONAL  AE2 B ER0 EY1 SH AH0 N AH0 L
ABERRATIONS  AE2 B ER0 EY1 SH AH0 N Z
ABERT  AE1 B ER0 T
ABET  AH0 B EH1 T
ABETTED  AH0 B EH1 T IH0 D
ABETTING  AH0 B EH1 T IH0 NG
ABEX  EY1 B EH0 K S
ABEYANCE  AH0 B EY1 AH0 N S

(Слово слева, справа серия фонем, клавиша здесь )

И вы хотите использовать его в качестве обучающих данных для системы машинного обучения, которая будет принимать новые слова и угадывать, как они будут произноситься на английском языке.

Это не так очевидно для меня, по крайней мере, потому что не существует фиксированного размера токена букв, который мог бы отображаться в фонему. У меня такое ощущение, что что-то связанное с цепью Маркова может быть правильным путем.

Как бы вы это сделали?

Ответы [ 2 ]

4 голосов
/ 06 апреля 2009

Проблема называется преобразованием графемы в фонему, подзадача Обработка естественного языка . Google выводит несколько статей.

2 голосов
/ 23 марта 2009

Не совсем моя область, но, возможно, построите нейронную сеть с несколькими слоями - более ранние слои, чтобы угадать разбиение слов на последовательные слоги, более поздние слои, чтобы угадать произношение этих слогов.

Настройка обучающей нейронной сети ANFIS довольно проста для числовых данных, для литеральных / фонетических данных задача, несомненно, на несколько порядков сложнее.

...