Question

Мне нужна библиотека или API, которые будут отображать аудио и текст, транскрибированный вручную, чтобы я мог получить временные метки для каждого слова. Пробовал использовать GCP для транскрибирования и получения временных меток, но частота ошибок слишком велика, а ручная работа увеличена. Аудио файлы - это разговоры между врачом и пациентом, поэтому голос пациента не очень слышен. Я думаю, именно поэтому GCP не может правильно его расшифровать.

В идеале я хотел бы уменьшить ручную работу и получить точные результаты.

Javier Bóbeda · Answer 1 · 30 января 2020

В GCP Speech to Text API есть несколько инструментов, которые вы потенциально можете использовать для улучшения своих результатов:

Используйте их улучшенные модели . Существует один оптимизированный для телефонных звонков, который может соответствовать этому сценарию, так как это разговор с двумя людьми.
Вы можете использовать диаризация динамика , чтобы определить, кто говорит в какой момент. С помощью этой информации вы можете предварительно обработать ваш аудиофайл и увеличить громкость в частях, где говорит пациент.
Проверьте это руководство , чтобы получить временные метки слова.

Как улучшить результаты GCP Speech to Text API для разговора двух человек

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как улучшить результаты GCP Speech to Text API для разговора двух человек

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы