Машинное обучение с фонетикой ASR - PullRequest
0 голосов
/ 21 февраля 2019

Существует много исследований по автоматическому распознаванию речи, которые преобразуют речь в текст.Эти инструменты используют глубокое обучение, чтобы сделать это.

Я обнаружил, что принцип его работы основан на английском языке.Если звучит слово "Phonics", то это будет либо Foniks, но самое близкое английское слово для этого - Phonics.

API Google может предоставить нам ASR, который дает нам конечный результат.Есть ли какой-либо инструмент или открытый исходный код, который может дать нам звуковые сигналы?Что-то вроде этого «ˈfəʊnɪks» вместо «Phonics»

Спасибо.

1 Ответ

0 голосов
/ 21 февраля 2019

Существует несколько инструментов с открытым исходным кодом для ASR.Kaldi, CMU Sphinx и HTK являются самыми популярными и хорошо документированными.Kaldi будет, вероятно, лучшим, если вы хотите использовать DNN для ASR.

Однако форма результата распознавания зависит от вашего словарного запаса.Если вы хотите иметь слово ˈfəʊnɪks вместо Phonics, вы должны определить его в словаре.Например:

!SIL sil
<UNK> spn
eight ey t
five f ay v
...
f_ey_ow_n_i_k_s f ey ow n i k s
....

Использование символов Юникода для представления слов невозможно (насколько я помню), поэтому я заменил их на X-SAMPA запись.

Следуйте этому руководству для подробного объяснения.

...