Как подключить PySpark к Bigquery - PullRequest
       13

Как подключить PySpark к Bigquery

2 голосов
/ 01 октября 2019

Я пытаюсь прочитать форму таблицы BigQuery с помощью PySpark.

Я попробовал следующее

table = 'my-project-id.project-dataset.test_table_spark'
df = spark.read.format('bigquery').option('table', table).load()

Однако я получаю эту ошибку

: java.lang.ClassNotFoundException: Failed to find data source: bigquery. Please find packages at http://spark.apache.org/third-party-projects.html

Как я могу прочитать таблицу bigQuery из pySpark (в данный момент я использую python2)

1 Ответ

4 голосов
/ 01 октября 2019

Вам необходимо включить банку для spark-bigquery-разъема с вашим spark-submit. Самый простой способ сделать это - использовать флаг --jars, чтобы включить общедоступную и самую последнюю версию соединителя:

spark-submit --jars gs://spark-lib/bigquery/spark-bigquery-latest.jar my_job.py

Хотя примеры ссылаются на Cloud Dataproc, это должно работатьпри отправке в любой кластер Spark.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...