Diarizations Speaker против распознавания говорящих Google Cloud против Microsoft azure против IBM Уотсон против aws транскрибировать - PullRequest
0 голосов
/ 20 января 2020

Я хочу сделать проект анализа речи в текст, в котором я хотел бы: 1) Распознавание говорящего 2) Диаризация динамика 3) Преобразование речи в текст. Сейчас я тестирую различные API, предоставляемые для различных компаний, таких как Microsoft, Google, AWS, IBM и т. Д. Я могу найти в Microsoft, что у вас есть возможность регистрации пользователей и распознавания докладчиков (https://cognitivewuppe.portal.azure-api.net/docs/services/563309b6778daf02acc0a508/operations/5645c3271984551c84ec6797). Однако, на всех других платформах есть диаризация динамиков, но нет распознавания динамиков. Если я правильно понимаю, в диаризации динамиков он сможет "различать guish" между пользователями, но как он будет распознавать, если только я не зарегистрирую их? Я могу найти только вариант регистрации в azure

Но я хочу быть уверен, поэтому просто хочу проверить здесь, может быть, я смотрю на правильные документы или, возможно, есть какой-то другой способ добиться этого в облаке Google, Уотсон и AWS транскрибируют. Если это так, пожалуйста, помогите мне с этим

1 Ответ

1 голос
/ 23 января 2020

Распознавание динамика подразделяется на две категории: проверка динамика и идентификация динамика. https://docs.microsoft.com/en-us/azure/cognitive-services/speaker-recognition/home

Диаризация - это процесс разделения динамиков на фрагмент аудио. Наш пакетный конвейер поддерживает диаризацию и способен распознавать две колонки на моноканальных записях. Когда вы используете пакетную транскрипцию API и включить диаризацию. Вернется 1,2. Весь вывод транскрипции содержит SpeakerId. Если диаризация не используется, в выводе JSON будет отображаться «SpeakerId»: ноль. Для диаризации мы поддерживаем два голоса, поэтому колонки будут обозначены как «1» или «2». https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/batch-transcription.md

Пример: В сценарии центра обработки вызовов клиенту не нужно определять, кто говорит, и он не может заранее обучить модель голосами докладчиков, поскольку каждый раз звонит новый пользователь , Скорее им нужно только идентифицировать разные голоса при преобразовании голоса в текст.

или

Вы можете использовать Video Indexer, поддерживающий транскрипцию, диаризацию динамика (нумерацию) и распознавание эмоций как по тексту, так и по тону голоса. Также доступны дополнительные сведения, например, вывод topi c, идентификация языка, определение бренда, перевод и т. Д. c. Вы можете использовать его через API видео или аудио только для оптимизации COGS. Вы можете использовать VI для диаризации динамика. Когда вы получаете идеи JSON, вы можете найти идентификаторы ораторов как в Insights.transcript [0] .speakerId, так и в Insights.Speakers. При работе с аудиофайлами, где каждый громкоговоритель перекодируется на другом канале, ВП идентифицирует это и соответственно применяет транскрипцию и диаризацию.

...