Мне нужно прочитать три разные таблицы bigquery, а затем присоединиться к ним, чтобы получить данные, которые будут сохранены в ведре GCS. Я использовал соединитель Spark BQ.
# Load data from BigQuery.
bqdf = spark.read.format('bigquery') \
.option('table', bq_dataset + bq_table) \
.load()
bqdf.createOrReplaceTempView('bqdf')
При этом данные всей таблицы читаются в фрейм данных. Я знаю, что могу применить фильтр к таблицам, а также выбрать необходимые столбцы. После этого создайте три фрейма данных и затем соедините их, чтобы получить результат.
Есть ли какой-либо эквивалентный способ добиться этого?
У меня есть возможность использовать клиентский API BigQuery (https://googleapis.dev/python/bigquery/latest/index.html) и импортировать его из скрипта pyspark. Однако, если я смогу добиться этого через соединитель Spark BQ, не хочу использовать вызов API из сценария python.
Пожалуйста, помогите.