Возможно ли (или будет ли это в ближайшее время) загружать видеофайлы в Google Speech-to-Text API без предварительного перекодирования их в аудиофайлы, а затем кодировать их в .flac или LINEAR16?
Я попробовал все комбинации, о которых могу думать, чтобы новая модель видео (в настоящее время в бета-версии) принимала видео файл mp4, но не могу этого сделать.
Кстати, я заметил Демонстрация API преобразования речи в текст успешно принимает файлы mp4 и создает транскрипцию .Означает ли это, что эта функция в настоящее время доступна, но документация еще не опубликована?Или, может быть, это будет в ближайшее время?Любое понимание этого будет высоко ценится.