Существует несколько инструментов с открытым исходным кодом для ASR.Kaldi, CMU Sphinx и HTK являются самыми популярными и хорошо документированными.Kaldi будет, вероятно, лучшим, если вы хотите использовать DNN для ASR.
Однако форма результата распознавания зависит от вашего словарного запаса.Если вы хотите иметь слово ˈfəʊnɪks
вместо Phonics
, вы должны определить его в словаре.Например:
!SIL sil
<UNK> spn
eight ey t
five f ay v
...
f_ey_ow_n_i_k_s f ey ow n i k s
....
Использование символов Юникода для представления слов невозможно (насколько я помню), поэтому я заменил их на X-SAMPA запись.
Следуйте этому руководству для подробного объяснения.