Распознавание динамика подразделяется на две категории: проверка динамика и идентификация динамика. https://docs.microsoft.com/en-us/azure/cognitive-services/speaker-recognition/home
Диаризация - это процесс разделения динамиков на фрагмент аудио. Наш пакетный конвейер поддерживает диаризацию и способен распознавать две колонки на моноканальных записях. Когда вы используете пакетную транскрипцию API и включить диаризацию. Вернется 1,2. Весь вывод транскрипции содержит SpeakerId. Если диаризация не используется, в выводе JSON будет отображаться «SpeakerId»: ноль. Для диаризации мы поддерживаем два голоса, поэтому колонки будут обозначены как «1» или «2». https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/batch-transcription.md
Пример: В сценарии центра обработки вызовов клиенту не нужно определять, кто говорит, и он не может заранее обучить модель голосами докладчиков, поскольку каждый раз звонит новый пользователь , Скорее им нужно только идентифицировать разные голоса при преобразовании голоса в текст.
или
Вы можете использовать Video Indexer, поддерживающий транскрипцию, диаризацию динамика (нумерацию) и распознавание эмоций как по тексту, так и по тону голоса. Также доступны дополнительные сведения, например, вывод topi c, идентификация языка, определение бренда, перевод и т. Д. c. Вы можете использовать его через API видео или аудио только для оптимизации COGS. Вы можете использовать VI для диаризации динамика. Когда вы получаете идеи JSON, вы можете найти идентификаторы ораторов как в Insights.transcript [0] .speakerId, так и в Insights.Speakers. При работе с аудиофайлами, где каждый громкоговоритель перекодируется на другом канале, ВП идентифицирует это и соответственно применяет транскрипцию и диаризацию.