Если, например, вы хотите прочитать содержимое из таблицы BigQuery, вы можете сделать это с помощью следующих инструкций (например, Python):
words = spark.read.format('bigquery') \
.option('table', 'bigquery-public-data:samples.shakespeare') \
.load()
вы можете обратиться к этому документу [1] (здесь вы также можете увидеть инструкции с Scala).
*** Я рекомендую сначала попробовать код wordcount
, чтобы использовать шаблон использования ****
После что, и у вас есть готовый код Spark, вы должны создать новый кластер в Google Dataproc
[2] и запустить там задание, связав соединитель BigQuery (пример с python):
gcloud dataproc jobs submit pyspark wordcount.py \
--cluster cluster-name \
--region cluster-region (example: "us-central1") \
--jars=gs://spark-lib/bigquery/spark-bigquery-latest.jar
Здесь вы можете найти последнюю версию коннектора BigQuery [3].
Кроме того, в этом репозитории GitHub вы можете найти некоторые примеры использования коннектора BigQuery со Spark [4].
С помощью этих инструкций вы сможете справиться с чтением и записью BigQuery.
[1] https://cloud.google.com/dataproc/docs/tutorials/bigquery-connector-spark-example#running_the_code
[2] https://cloud.google.com/dataproc/docs/guides/create-cluster
[3] гс: // искра -lib / bigquery / spark-bigquery-latest.jar
[4] https://github.com/GoogleCloudDataproc/spark-bigquery-connector