Разница между продуктами и платформами Microsoft Speech - PullRequest
0 голосов
/ 12 июня 2018

Кажется, что Microsoft предлагает довольно много продуктов для распознавания речи, я хотел бы знать различия между всеми ними, пожалуйста.

  • Существует Microsoft Speech API или SAPI.Но почему-то Microsoft Cognitive Service Speech API имеет то же имя.

  • Хорошо, теперь Microsoft Cognitive Service в Azure предлагает API речевой службы и Bing Speech API .Я предполагаю, что для преобразования текста в текст оба API одинаковы.

  • А затем System.Speech.Recognition (или Desktop SAPI), Microsoft.Speech.Recognition (или сервер SAPI) и Windows.Media.Speech.Recognition . Здесь и здесь имеют некоторые объяснения различия между тремя.Но я догадываюсь, что это старые модели распознавания речи, основанные на HMM, то есть не модели нейронных сетей, и все три можно использовать в автономном режиме без подключения к интернету, верно?

  • Для речи AzureAPI речи и сервиса bing, они более продвинутые речевые модели, верно?Но я предполагаю, что нет возможности использовать их в автономном режиме на моем локальном компьютере, так как все они требуют проверки подписки.(даже если кажется, что Bing API имеет C # настольную библиотеку ..)

По сути, я хочу иметь автономную модель, которая делает речь-текстовая транскрипция, для данных моего разговора (5-10 минут для каждой аудиозаписи), которая распознает мульти-динамики и выводит временные метки (или вывод с временным кодированием).Я теперь немного смущен всеми вариантами.Я был бы очень признателен, если кто-то может мне объяснить, большое спасибо!

1 Ответ

0 голосов
/ 20 июня 2018

Сложный вопрос - и одна из причин, почему это так сложно: мы (Microsoft), кажется, представляем непоследовательную историю о «речь» и «речь apis».Хотя я работаю в Microsoft, мое мнение по этому поводу следующее.Я пытаюсь дать некоторое представление о том, что планируется в моей команде (Cognitive Service Speech - Client SDK), но я не могу предсказать все аспекты ближайшего будущего.

Ранее Microsoft признала, что речь является важным средством, поэтому Microsoft имеет обширную и длительную историю, позволяющую говорить в своих продуктах.Есть действительно хорошие речевые решения (с местным признанием), вы перечислили некоторые из них.

Мы работаем над тем, чтобы объединить это и представляем вам одно место, где вы можете найти самое современное речевое решение в Microsoft.Это «Речевой сервис Microsoft» (https://docs.microsoft.com/de-de/azure/cognitive-services/speech-service/) - в настоящее время в режиме предварительного просмотра.

На стороне сервиса он объединит наши основные речевые технологии, такие как преобразование речи в текст, преобразование текста в речь,намерение, перевод (и будущие сервисы) под одним зонтиком. Модели речи и языков постоянно совершенствуются и обновляются. Мы разрабатываем клиентский SDK для этого сервиса. Со временем (позднее в этом году) этот SDK будет доступен во всех основных операционных системах (Windows, Linux, Android, iOS) и имеют поддержку основных языков программирования. Мы продолжим улучшать / улучшать поддержку платформ и языков для SDK.

Эта комбинация онлайн-сервиса и клиентского SDK оставит предварительный просмотр-заявим позже в этом году.

Мы понимаем желание иметь возможности локального распознавания. Он не будет доступен «из коробки» в нашем первом выпуске SDK (он также не является частью текущего предварительного просмотраОдна из целей SDK - паритет (функциональность и API) между платформами и языками.Нужно много работать.Оффлайн не является частью этого сейчас, я не могу делать здесь никаких прогнозов, ни по функциям, ни по срокам ...

Так что, с моей точки зрения, новые Speech Services и SDK - это путь вперед,Цель - унифицированный API на всех платформах, легкий доступ ко всем службам речи Microsoft.Требуется ключ подписки, требуется, чтобы вы были «подключены».Мы прилагаем все усилия, чтобы оба (сервер и клиент) вышли из статуса предварительного просмотра позже в этом году.

Надеюсь, это поможет ...

Вольфганг

...