Документация Google Speech to Text рекомендует использовать размер кадра 100 мс для минимизации задержки.
Допустим любой размер кадра.Большие кадры более эффективны, но добавляют задержку.100-миллисекундный размер кадра рекомендуется в качестве хорошего компромисса между задержкой и эффективностью.
-Лучшие практики
Однако, что такое размер кадра, я не знаю.Размер кадра такой же, как у AudioBuffer.length?
AudioBuffer.length