У меня возникают трудности при попытке переписать короткие пользовательские аудио-ответы, такие как «да» или «нет».
Я использую функцию dialogFlow Detect, используя аудио в качестве входных данных, но то же самое происходит с помощью Google Speech-To-Text API.Я предполагаю, что оба используют одни и те же алгоритмы.В основном проблема заключается в том, что во многих случаях отклик пустой
Аудиоклипы берутся из телефонного звонка (MULAW, 8 кГц), а кодировка и частота дискретизации совпадают с тем, что я отправляю в запросе,потому что он работает почти со всеми аудио.
У нас проблема только с короткими ответами.Мы слышим звук и слово (да / нет) достаточно ясно, но как dialogFlow, так и Google Speech-To-Text возвращают пустой ответ.
У кого-то была такая же проблема?Есть ли какая-либо конфигурация, которая может быть применена для решения или смягчения этой проблемы?