Мне нужна библиотека или API, которые будут отображать аудио и текст, транскрибированный вручную, чтобы я мог получить временные метки для каждого слова. Пробовал использовать GCP для транскрибирования и получения временных меток, но частота ошибок слишком велика, а ручная работа увеличена. Аудио файлы - это разговоры между врачом и пациентом, поэтому голос пациента не очень слышен. Я думаю, именно поэтому GCP не может правильно его расшифровать.
В идеале я хотел бы уменьшить ручную работу и получить точные результаты.