Загрузите секционированный (искровой) паркет на стол для больших запросов - PullRequest
1 голос
/ 18 июня 2019

У меня есть данные, записанные из spark, в файлы паркета в gcs, разбитые на столбец даты.Данные в gcs выглядят так:

gs://mybucket/dataset/fileDate=2019-06-17/000.parquet
gs://mybucket/dataset/fileDate=2019-06-17/001.parquet

Я бы хотел загрузить это в bigquery, чтобы столбец fileDate в результирующей (секционированной) таблице заполнялся из пути.Как я могу это сделать?

То, что я пробовал до сих пор, - это создать таблицу и загрузить в нее данные с помощью

bq --location=US load --source_format=PARQUET 'workspace:marcin_test.dataset_table' 'gs://mybucket/dataset/fileDate=2019-06-17/*'

. Это работает, посколькуданные загружены, но fileDate имеет значение null.

...