Word / Phoneme Corpus для Elman SRN (английский) - PullRequest
0 голосов
/ 07 сентября 2011

Я пишу простую рекуррентную сеть Elman. Я хочу дать ему последовательность слов, где каждое слово является последовательностью фонем, и я хочу много обучающих и тестовых данных.

Итак, мне нужен набор английских слов вместе с фонемами, из которых они состоят, написанных как что-то вроде ARPAbet или SAMPA. Британский английский был бы хорош, но не обязателен, пока я знаю, с чем имею дело. Есть предложения?

В настоящее время у меня нет времени или желания кодировать что-то, что выводит фонемы, из которых состоит слово, из устных или письменных данных, поэтому, пожалуйста, не предлагайте это.

Примечание: мне известен Словарь произношения CMU , но он утверждает, что он основан только на наборе символов ARPABet - кто-нибудь знает, есть ли на самом деле какие-либо различия и если да, то какие они есть? (Если их нет, я мог бы просто использовать это ...)

РЕДАКТИРОВАТЬ: CMUPD 0.7a Список символов - гласные могут иметь лексическое ударение, и существуют варианты (стандартных символов ARPABET), указывающие это.

1 Ответ

3 голосов
/ 08 сентября 2011

CMUdict должно быть хорошо. «Набор символов Арпабет» просто означает Арпабет. Если есть небольшие отличия, они должны быть объяснены в документации CMUdict.

Если вам нужны данные, которые ближе к реальной жизни, чем объединение словарных произношений отдельных слов, ищите фонетически транскрибируемые корпуса, например, TIMIT.

...