Я недавно начал работать над проектом об ASR, и я новичок в этой области.Я пытаюсь пройти через некоторые из основных алгоритмов ASR, особенно сквозные.Я очень заинтересован в CLDNN, так как его легко реализовать и начать с него.Но есть еще несколько моментов, которые я пока не совсем понимаю.
Как было упомянуто в документе, выходами сети являются 13522 CD-целей.Какие конкретно цели существуют?Это CD-телефоны?
Если это CD-телефоны, должно быть несоответствие между длиной входа и длиной выхода.Как это обрабатывается без введения функции потери CTC?И как рассчитывается убыток при наличии этого несоответствия?Есть ли дополнительная языковая модель?
Спасибо, если кто-нибудь может дать еще несколько комментариев относительно этих пунктов.