У меня необычная проблема с распознаванием речи.В настоящее время я помогаю разработать автоматический инструмент для транскрипции голосовых ответов для нейрокогнитивной лаборатории.Задача состоит в присвоении имен изображениям - каждое изображение требует ответа в одно слово и сохраняется в отдельном файле .wav.
Я использую GoogleCloud Speech-to-text API.Я написал скрипт на Python, и он работает хорошо ... даже слишком хорошо.
Проблема здесь в том, что мне нужна очень конкретная транскрипция, указывающая на любые дополнительные «шумы», которые люди делают, прежде чем дать окончательный ответ (например, нерешительность: "Eeee-Cat", исправляя себя: "Poli-почтальон").С точки зрения проекта не очень важно, что было сказано перед правильным ответом, но что человек колебался или допустил ошибку, прежде чем ответить.GoogleCloud автоматически «исправляет» говорящего, «угадывая», каким был предполагаемый ответ (и, следовательно, пропуская дополнительные звуки или слоги до начала правильного ответа).
Я пытался использовать enable_word_confidence и max_alternatives, чтобы определитьпроблемные слова (более низкий уровень достоверности и большее количество альтернатив - маркер проблемы), но это не помогло.Я видел похожую проблему при переполнении стека:
Как отключить автокоррекцию на уровне предложений в Google Cloud Speech-to-Text API
, но яне уверен, возможно ли реализовать предложения, которые были даны там для моего случая.
Знаете ли вы, где искать решение этой проблемы, используя другие функции Google Cloud (или другого облака / решения /)программа)?
Заранее спасибо!