Я пишу простую рекуррентную сеть Elman. Я хочу дать ему последовательность слов, где каждое слово является последовательностью фонем, и я хочу много обучающих и тестовых данных.
Итак, мне нужен набор английских слов вместе с фонемами, из которых они состоят, написанных как что-то вроде ARPAbet или SAMPA. Британский английский был бы хорош, но не обязателен, пока я знаю, с чем имею дело. Есть предложения?
В настоящее время у меня нет времени или желания кодировать что-то, что выводит фонемы, из которых состоит слово, из устных или письменных данных, поэтому, пожалуйста, не предлагайте это.
Примечание: мне известен Словарь произношения CMU , но он утверждает, что он основан только на наборе символов ARPABet - кто-нибудь знает, есть ли на самом деле какие-либо различия и если да, то какие они есть? (Если их нет, я мог бы просто использовать это ...)
РЕДАКТИРОВАТЬ: CMUPD 0.7a Список символов - гласные могут иметь лексическое ударение, и существуют варианты (стандартных символов ARPABET), указывающие это.