Соедините GCP (большой запрос) с PySpark без использования Dataproc - PullRequest
0 голосов
/ 31 октября 2019

Я пытаюсь подключить GCP (Google Big Query) к Spark (используя pyspark) без использования Dataproc (самодостаточный Spark в доме), как указано в официальной документации Google, это только для Dataproc https://cloud.google.com/dataproc/docs/tutorials/bigquery-connector-spark-example?Любое предложение? Примечание. Настройка My Spark & ​​Hadoop в Docker. Спасибо

1 Ответ

0 голосов
/ 01 ноября 2019

Пожалуйста, посмотрите на страницу проекта на GitHub - там подробно описано, как ссылаться на учетные данные GCP из кода.

Короче, вы должны запустить

spark.read.format("bigquery").option("credentialsFile", "</path/to/key/file>").option("table", "<table>").load()

Пожалуйста, обратитесь здесь о том, как создать файл учетных данных json, если это необходимо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...