Да, Google Dataproc является эквивалентом AWS EMR.
Да, вы можете ssh войти в главный узел Dataproc с помощью команды gcloud compute ssh ${CLUSTER}-m
и отправить задания Spark вручную , но рекомендуется использовать API Dataproc и / или gcloud
команда для отправки заданий в кластер Dataproc. Обратите внимание, что вы можете использовать команду gcloud
для отправки заданий в кластер Dataproc с любого компьютера, на котором установлено gcloud
, вам не нужно делать это из Google Cloud VM, например, Главный узел Dataproc.
Чтобы получить доступ к Google Cloud Storage (GCS) из задания, отправленного в кластер Dataproc, вам не нужно выполнять какую-либо настройку (Dataproc имеет предустановленный разъем GCS , и он уже настроен для доступа к GCS ).
Вы можете отправить задание PySpark в кластер Dataproc с помощью команды (обратите внимание, сначала вам нужно скопировать файл задания PySpark в GCS и использовать его при отправке задания Dataproc):
gsutil cp spark.py gs://<BUCKET>/path/spark.py
gcloud dataproc jobs submit pyspark --cluster=${CLUSTER} \
gs://<BUCKET>/path/spark.py