Я хотел бы использовать автономную речь для распознавания текста, в основном для немецкого языка.
Особенно я хочу использовать Mozilla DeepSpeech (реализация TensorFlow в архитектуре DeepSpeech от Baidu), но Я боюсь, что качество звука на аудиовходе недостаточно хорошее, чтобы обеспечить низкий уровень ошибок ( WER - коэффициент ошибок в словах ).
(Engli sh) пример:
Выступающий сказал «знать» , но двигатель мог понять «поток» или "показать" или "go" или "знать" .
Я хотел бы получить обратно [flow, show, go, know]
из двигателя, чтобы потом я мог вручную решить, какое предложение подходит лучше всего. Как я могу получить это?
Предлагает ли другая речь к текстовым движкам такую возможность?