Question

Я пытаюсь прочитать форму таблицы BigQuery с помощью PySpark.

Я попробовал следующее

table = 'my-project-id.project-dataset.test_table_spark'
df = spark.read.format('bigquery').option('table', table).load()

Однако я получаю эту ошибку

: java.lang.ClassNotFoundException: Failed to find data source: bigquery. Please find packages at http://spark.apache.org/third-party-projects.html

Как я могу прочитать таблицу bigQuery из pySpark (в данный момент я использую python2)

Brad Miro · Answer 1 · 01 октября 2019

Вам необходимо включить банку для spark-bigquery-разъема с вашим spark-submit. Самый простой способ сделать это - использовать флаг --jars, чтобы включить общедоступную и самую последнюю версию соединителя:

spark-submit --jars gs://spark-lib/bigquery/spark-bigquery-latest.jar my_job.py

Хотя примеры ссылаются на Cloud Dataproc, это должно работатьпри отправке в любой кластер Spark.

Как подключить PySpark к Bigquery

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как подключить PySpark к Bigquery

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов