Это ОГРОМНЫЕ вопросы, я не знаю, с чего начать ... Итак, позвольте мне попробовать дать вам правильные "условия", чтобы вы могли уточнить свой квест:
Во-первых, поймите, что распознавание речи - это сложный и разнообразный предмет, имеющий много разных применений. Люди склонны сопоставлять этот домен с первым, что приходит им в голову (обычно это компьютеры, понимающие, что вы говорите в системах IVR). Итак, сначала давайте разделим концепцию на основные категории:
Человек-машина: Приложения, которые имеют дело с пониманием того, что говорит человек, но человек знает, что он говорит с машиной, и грамматика очень ограничена. Примеры:
- Компьютерная автоматизация
- Специализированный: Пилоты, например, автоматизируют некоторые элементы управления (шум - огромная проблема)
- Системы IVR (Interactive Voice Response), такие как Google-411 или когда вы звоните в банк, а компьютер на другой стороне говорит «скажи« сервис », чтобы получить обслуживание клиентов»
от человека к человеку (спонтанная речь): это большая, более сложная проблема. Здесь мы также можем разбить его на несколько приложений:
- Call Center: разговор между Агентом-Клиентом, качество телефона, сжатый
- Интеллект: радио / телефон / живые разговоры между 2 или более лицами
Теперь, Речь-Текст - это не то, о чем вы должны говорить, что вам небезразлично. Что вас волнует, так это решение проблемы. Для решения разных задач используются разные технологии. Смотрите обзор здесь некоторых из них. Подводя итог, можно сказать, что другие подходы - это фонетическая транскрипция, LVCSR и прямая связь.
Кроме того, вы заинтересованы в том, чтобы быть доктором технических наук? Вам понадобится эквивалент Мастера, включающий Обработка сигнала и, вероятно, PHd, чтобы быть передовым. В этом случае вы будете работать в компании, которая разрабатывает реальный речевой движок . Крупными являются такие компании, как Nuance и IBM, но существуют также Phillips и другие стартапы.
С другой стороны, если вы хотите быть тем, кто реализует приложения, вы будете работать не над движком, а над созданием приложения, использующего движок. Хорошая аналогия, я думаю, формирует игровую индустрию:
Вы разрабатываете графический движок (например, движок Cry) или работаете над одной из нескольких сотен игр, и все они используют один и тот же графический движок?
Не поймите меня неправильно, есть много работы над качеством поиска и за пределами IBM / Nuance мира. Движок обычно очень открыт, и необходимо выполнить множество алгоритмических настроек, которые могут существенно повлиять на производительность. Каждое бизнес-приложение имеет свои ограничения и функцию «затраты / выгоды», поэтому вы можете проводить эксперименты в течение многих лет, создавая лучшие приложения на основе распознавания голоса.
еще одна вещь: в общем, вы также хотели бы иметь хороший статистический фон, тем ниже в стеке вы хотите быть.
На данный момент меня интересует возможность создавать приложения, которые позволяют автоматизировать
Хорошо, мы сходимся здесь ... Тогда вас не интересует "Речь к тексту". Эти умные слова переносят вас в мир полной транскрипции, куда вам не нужно идти. Вы должны сосредоточиться на некоторых из более простых технологий «человек-машина», таких как Voice XML, и тех, которые используются в системах IVR (Nuance является крупнейшим игроком в этой области)