У нас есть приложение для потокового воспроизведения, работающее в кластере EMR, нам нужно сохранить потоковые данные в облачном хранилище Google в формате паркет.
Пожалуйста, помогите мне.
Это официальное руководство Google Cloud по переходу с Amazon S3 на облачное хранилище может быть полезным:
https://cloud.google.com/storage/docs/migrating
Мой последний ответ был удален, пожалуйста, расскажите хотя бы почемуудален.Спасибо.
Я не уверен, как вы обрабатываете потоковые данные в EMR.В любом случае, у вас всегда может быть собственный скрипт Python, использующий библиотеку Google для подключения к GCS и отправки ваших данных в GCS.Вы также можете запустить скрипт как код pyspark, чтобы ускорить процесс
https://cloud.google.com/appengine/docs/standard/python/googlecloudstorageclient/read-write-to-cloud-storage