У меня тяжелая или глубокая глухота с очень раннего возраста, но, к счастью, я могу говорить как нормальный человек. Вербальное общение всегда было для меня трудным из-за моих нарушенных способностей распознавания речи даже при чтении по губам. Я прошел школу и колледж, просто читая доски, слайды PowerPoint, книги и Интернет. Я неплохо справляюсь со своей текущей работой по разработке программного обеспечения, но в последнее время я чувствую, что должен приложить некоторые усилия, чтобы улучшить мою ситуацию.
Субтитры - мой спаситель в этой стране, чтобы понять фильмы / шоу по телевизору, и я наслаждаюсь этим только в течение последних 7 лет (сейчас мне 31 год).
Я очень чувствую необходимость видеть субтитры в реальной жизни всякий раз, когда я разговариваю с кем-то, даже с незнакомыми людьми. Я хочу разработать нетренированный конвертер речи в текст, и для начала ему даже не нужно прописывать точные слова для меня, подойдут только подсказки по слогам / фонетике.
Я уже некоторое время гуглял по этому вопросу, но большинство результатов - это либо преобразование текста в речь, либо недоделанные попытки распознавания речи, чтобы дать голосовые команды компьютеру. Мне бы очень хотелось получить несколько советов о том, как начать этот проект. В частности, мне нужны такие шаги, как, как обращаться с аудиофайлами, и какую обработку я должен выполнить, чтобы максимально приблизить фонетику.