В частности, как добавить соединитель spark-bigquery, чтобы я мог запрашивать данные из веб-интерфейса dataproc Jupyter?
Ключевые ссылки: - https://github.com/GoogleCloudPlatform/spark-bigquery-connector
Цель:Чтобы иметь возможность запустить что-то вроде:
s = spark.read.bigquery("transactions")
s = (s
.where("quantity" >= 0)
.groupBy(f.col('date'))
.agg({'sales_amt':'sum'})
)
df = s.toPandas()