Как использовать коннектор Spark BigQuery для объединения нескольких таблиц и последующего извлечения данных в фрейм данных? - PullRequest
0 голосов
/ 26 мая 2020

Мне нужно прочитать три разные таблицы bigquery, а затем присоединиться к ним, чтобы получить данные, которые будут сохранены в ведре GCS. Я использовал соединитель Spark BQ.

# Load data from BigQuery.
bqdf = spark.read.format('bigquery') \
    .option('table', bq_dataset + bq_table) \
    .load()
bqdf.createOrReplaceTempView('bqdf')

При этом данные всей таблицы читаются в фрейм данных. Я знаю, что могу применить фильтр к таблицам, а также выбрать необходимые столбцы. После этого создайте три фрейма данных и затем соедините их, чтобы получить результат.

Есть ли какой-либо эквивалентный способ добиться этого?

У меня есть возможность использовать клиентский API BigQuery (https://googleapis.dev/python/bigquery/latest/index.html) и импортировать его из скрипта pyspark. Однако, если я смогу добиться этого через соединитель Spark BQ, не хочу использовать вызов API из сценария python.

Пожалуйста, помогите.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...