myccha 08 ноября 2019 68

Как добавить jar-зависимость к кластеру dataproc в GCP?

myccha / 08 ноября 2019

В частности, как добавить соединитель spark-bigquery, чтобы я мог запрашивать данные из веб-интерфейса dataproc Jupyter?

Ключевые ссылки: - https://github.com/GoogleCloudPlatform/spark-bigquery-connector

Цель:Чтобы иметь возможность запустить что-то вроде:

s = spark.read.bigquery("transactions")

s = (s
    .where("quantity" >= 0)
    .groupBy(f.col('date'))
    .agg({'sales_amt':'sum'})
     )

df = s.toPandas()

...