Как улучшить результаты GCP Speech to Text API для разговора двух человек - PullRequest
0 голосов
/ 16 января 2020

Мне нужна библиотека или API, которые будут отображать аудио и текст, транскрибированный вручную, чтобы я мог получить временные метки для каждого слова. Пробовал использовать GCP для транскрибирования и получения временных меток, но частота ошибок слишком велика, а ручная работа увеличена. Аудио файлы - это разговоры между врачом и пациентом, поэтому голос пациента не очень слышен. Я думаю, именно поэтому GCP не может правильно его расшифровать.

В идеале я хотел бы уменьшить ручную работу и получить точные результаты.

1 Ответ

0 голосов
/ 30 января 2020

В GCP Speech to Text API есть несколько инструментов, которые вы потенциально можете использовать для улучшения своих результатов:

  • Используйте их улучшенные модели . Существует один оптимизированный для телефонных звонков, который может соответствовать этому сценарию, так как это разговор с двумя людьми.
  • Вы можете использовать диаризация динамика , чтобы определить, кто говорит в какой момент. С помощью этой информации вы можете предварительно обработать ваш аудиофайл и увеличить громкость в частях, где говорит пациент.
  • Проверьте это руководство , чтобы получить временные метки слова.
...