Стоит попробовать, но я могу увидеть множество препятствий.
Как вы собираетесь учитывать акценты и диалекты? Южный акцент так же понятен и точен, как и средне-западный.
Если вы выдает только одно слово, речевые аудиофайлы для обработки, то служба STT не сможет использовать контекст, чтобы определить, какое слово на самом деле было сказано, и гомофоны будут особенно хитрыми.
У вас есть два варианта:
1.word_alternatives как часть альтернативного варианта, но вы получите уровни достоверности для всех слов во всех альтернативных ответах.
2.ключное совпадение ключевых слов. Скорее всего, это будет ваш лучший вариант.