Экспорт таблицы из Bigquery в GCS разделенных размеров - PullRequest
0 голосов
/ 08 июня 2018

Я экспортирую таблицу размером> 1 ГБ из Bigquery в GCS, но она разбивает файлы на очень маленькие файлы размером 2-3 МБ.Есть ли способ получить большие файлы, такие как 40-60 МБ на файлы, а не 2-3 МБ.

Я делаю экспорт через API https://cloud.google.com/bigquery/docs/exporting-data#exporting_data_into_one_or_more_files

https://cloud.google.com/bigquery/docs/reference/v2/jobs

Исходный размер таблицы на Bigquery составляет 60 ГБ.Я извлекаю данные с форматом - сжатие NewLine_Delimited_Json и GZIP

destination_cloud_storage_uris=[
        'gs://bucket_name/main_folder/partition_date=xxxxxxx/part-*.gz'
    ]

Ответы [ 2 ]

0 голосов
/ 10 июня 2018

Вы пытаетесь экспортировать секционированную таблицу?Если да, каждый раздел экспортируется как отдельная таблица, и это может привести к небольшим файлам.Я запускаю экспорт в cli с помощью каждой из следующих команд и получаю в обоих случаях файлы размером 49 МБ:

bq extract --compression=GZIP --destination_format=NEWLINE_DELIMITED_JSON project:dataset.table gs://bucket_name/path5-component/file-name-*.gz

bq extract --compression=GZIP project:dataset.table gs://bucket_name/path5-component/file-name-*.gz
0 голосов
/ 08 июня 2018

Пожалуйста, добавьте больше деталей к вопросу, чтобы мы могли дать конкретный совет: как именно вы запрашиваете этот экспорт?

Тем не менее, если у вас много файлов в GCS, и вы хотите объединить их все в одинВы можете сделать:

gsutil compose gs://bucket/obj1 [gs://bucket/obj2 ...] gs://bucket/composite
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...