Как подключиться от EMR к GCS - PullRequest
0 голосов
/ 28 февраля 2019

У нас есть приложение для потокового воспроизведения, работающее в кластере EMR, нам нужно сохранить потоковые данные в облачном хранилище Google в формате паркет.

Пожалуйста, помогите мне.

Ответы [ 2 ]

0 голосов
/ 05 марта 2019

Это официальное руководство Google Cloud по переходу с Amazon S3 на облачное хранилище может быть полезным:

https://cloud.google.com/storage/docs/migrating

Мой последний ответ был удален, пожалуйста, расскажите хотя бы почемуудален.Спасибо.

0 голосов
/ 28 февраля 2019

Я не уверен, как вы обрабатываете потоковые данные в EMR.В любом случае, у вас всегда может быть собственный скрипт Python, использующий библиотеку Google для подключения к GCS и отправки ваших данных в GCS.Вы также можете запустить скрипт как код pyspark, чтобы ускорить процесс

https://cloud.google.com/appengine/docs/standard/python/googlecloudstorageclient/read-write-to-cloud-storage

...