API распознавания речи - PullRequest
       45

API распознавания речи

11 голосов
/ 10 ноября 2010

Мне нужно автоматически транскрибировать несколько коротких MP3-файлов как часть доказательства концепции, над которой я работаю. В настоящее время я ищу облачные решения или службы веб-API для отправки MP3 в виде простого HTTP-запроса и получения транскрипции.

Единственное бесплатное / открытое решение, которое я нашел здесь , но демонстрации, похоже, не работают (по крайней мере, не для файлов, которые мне нужно записать) Я нашел несколько корпоративных решений для колл-центров, но пока ничего не могу просто интегрировать в проект.

Существуют ли какие-либо веб-службы распознавания речи? Тот, который способен отфильтровать небольшой шум, был бы плюсом.

Ответы [ 3 ]

5 голосов
/ 24 апреля 2013

Вот неофициальный метод для доступа к возможностям Google ASR.Я только что проверил вчера, и он все еще работает - вы можете получить вывод ASR в стиле JSON со словами и соответствующей оценкой достоверности из аудио FLC, сэмплированного в 16 кГц.

1 голос
/ 11 февраля 2012

Также вы можете попробовать механизм распознавания речи Windows 7 для создания субтитров. Здесь - инструмент для этого.

1 голос
/ 10 ноября 2010

Это может быть хорошим совпадением. Также в их профиле techcrunch ( См. Это ) перечислены конкуренты: SimulScribe, SpinVox, Vlingo, Nuance, Microsoft, Google Некоторые из этих ссылок могут быть полезны.

У Vlingo, Bing и Google есть распознаватели в облаке, но я не думаю, что они делают их общедоступными для программирования. Я считаю, что они доступны только от своих авторизованных клиентов.

Для подтверждения концепции (и малой громкости), вы рассматривали возможность использования только настольных речевых движков, которые поставляются в Windows 7? В чем разница между System.Speech.Recognition и Microsoft.Speech.Recognition? может быть полезным. Распознаватели рабочего стола MS поставляются с грамматикой диктовки, и, похоже, вам это понадобится.

...