Как сделать неподготовленную речь в текстовом конвертере? - PullRequest
6 голосов
/ 05 декабря 2009

У меня тяжелая или глубокая глухота с очень раннего возраста, но, к счастью, я могу говорить как нормальный человек. Вербальное общение всегда было для меня трудным из-за моих нарушенных способностей распознавания речи даже при чтении по губам. Я прошел школу и колледж, просто читая доски, слайды PowerPoint, книги и Интернет. Я неплохо справляюсь со своей текущей работой по разработке программного обеспечения, но в последнее время я чувствую, что должен приложить некоторые усилия, чтобы улучшить мою ситуацию.

Субтитры - мой спаситель в этой стране, чтобы понять фильмы / шоу по телевизору, и я наслаждаюсь этим только в течение последних 7 лет (сейчас мне 31 год).

Я очень чувствую необходимость видеть субтитры в реальной жизни всякий раз, когда я разговариваю с кем-то, даже с незнакомыми людьми. Я хочу разработать нетренированный конвертер речи в текст, и для начала ему даже не нужно прописывать точные слова для меня, подойдут только подсказки по слогам / фонетике.

Я уже некоторое время гуглял по этому вопросу, но большинство результатов - это либо преобразование текста в речь, либо недоделанные попытки распознавания речи, чтобы дать голосовые команды компьютеру. Мне бы очень хотелось получить несколько советов о том, как начать этот проект. В частности, мне нужны такие шаги, как, как обращаться с аудиофайлами, и какую обработку я должен выполнить, чтобы максимально приблизить фонетику.

Ответы [ 3 ]

3 голосов
/ 05 декабря 2009

Возможно, вы захотите взглянуть на проект CMU Sphinx , который переводит речь в текст в реальном времени. У них есть демоверсии , чтобы попробовать.

1 голос
/ 05 декабря 2009

Вот еще несколько вопросов, которые могут дать вам идеи:

И взгляните на SIL Linguistics Computing .

Удачи.

1 голос
/ 05 декабря 2009

Посмотрите руководство DSP , оно больше о вещах низкого уровня, но такие методы, как преобразования Фурье и фильтрация, имеют большое значение для обработки звука. Даже если вы не начинаете с нуля, полезно оценить принципы и приложения.

Тем не менее, держу пари, что, начав с нуля, можно создать что-то, что может отличить базовый набор звуков от нескольких дней работы ...

...