Есть ли речь в текстовом API или какой-то "хак", с помощью которого я могу использовать Google речь в текстовых средствах? - PullRequest
4 голосов
/ 12 мая 2010

Я думаю, что речь Google о текстовых сообщениях (автоматическая транскрипция голосовой почты в Google Voice, автоматическое создание надписей на YouTube и т. Д.) Впечатляет.

Я посмотрел, сделал ли Google его доступным через API, и, похоже, они этого не сделали (не то, чтобы я их винил!). Хотя облачный сервис, обеспечивающий функциональность речи в тексте, был бы довольно крут.

Есть ли какой-нибудь "хак", который я могу использовать, чтобы получить доступ речи к тексту. Моя архитектура в основном сводится к этому - короткий 15-20 секундный клип wav / mp3 / other в качестве входных данных, выходных данных в виде открытого текста.

Есть идеи людей?

Ответы [ 6 ]

3 голосов
/ 07 ноября 2010

Есть много речи для текстовых API. То, что Google не делает их доступными, не означает, что вам не повезло.

Вот хороший вариант для C #. Вы можете искать другие для вашей платформы, если это не .NET.

http://cmusphinx.sourceforge.net/

2 голосов
/ 16 апреля 2011

Проверьте это: http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/

В настоящее время я пытаюсь реализовать API в PHP.

- Сет

1 голос
/ 02 декабря 2014

Если вам действительно нужен вывод Google ... Вот метод взлома

Задумывались ли вы о создании двигателя представления телефона? По сути, он называет вашу голосовую почту Google ... воспроизводит mp3.

Прекращение вывода через https://code.google.com/p/google-voice-java/

Присутствуют лучшие ответы.

1 голос
/ 06 мая 2013

Вы можете взглянуть на следующую реализацию, используя C # - я использовал ссылку Mike Pultz.

https://github.com/seigneur/Voice-Biometrics Я использовал Sox для конвертации во flac, создал небольшой SOX-скрипт для разбиения его на куски.

1 голос
/ 18 июля 2011

Вот более свежая, более «официальная» версия предложения Питера Моффата:

http://lists.w3.org/Archives/Public/public-xg-htmlspeech/2011Feb/att-0020/api-draft.html

И соответствующее объявление Google:

http://chrome.blogspot.com/2011/03/talking-to-your-computer-with-html5.html

1 голос
/ 09 декабря 2010

Доступно в HTML5, через Chrome 8 или Opera: https://docs.google.com/View?id=dcfg79pz_5dhnp23f5&pli=1

Речевые технологии Google также доступны через Android API на телефоне Android.

Другие продукты, такие как Sphinx, представляют собой механизмы распознавания речи, которые лучше всего работают в определенных областях, а не "без ограничений", переводя речь в текст.

...