bigquery.Client (). extract_table () не всегда делит большую таблицу на маленькие CSV-файлы. - PullRequest
1 голос
/ 26 марта 2019

Моему приложению Python необходимо экспортировать таблицы BigQuery в небольшие файлы CSV в GCS (например, размером менее 1 ГБ).

Я сослался на документ и написал следующий код:

from google.cloud import bigquery

bigquery.Client().extract_table('my_project.my_dataset.my_5GB_table',
                                destination_uris='gs://my-bucket/*.csv')

Размер my_5GB_table составляет приблизительно 5 ГБ. Но это приводит к одному 10 ГБ CSV-файлу в GCS. GCS image

Я пробовал с другими таблицами с различным числом размеров, а затем некоторые приводили к разделенным файлам размером около 200 МБ, а другие - к одному огромному файлу.

В doc говорится, как будто таблицы всегда делятся на файлы размером 1 ГБ, но сейчас я не знаю правил, в которых эти файлы разделяются.

Q1 Как сделать так, чтобы таблицы всегда были разделены на файлы размером менее 1 ГБ?

Q2 Не могу ли я указать размер файлов, на которые делятся таблицы?

...