Моему приложению Python необходимо экспортировать таблицы BigQuery в небольшие файлы CSV в GCS (например, размером менее 1 ГБ).
Я сослался на документ и написал следующий код:
from google.cloud import bigquery
bigquery.Client().extract_table('my_project.my_dataset.my_5GB_table',
destination_uris='gs://my-bucket/*.csv')
Размер my_5GB_table
составляет приблизительно 5 ГБ.
Но это приводит к одному 10 ГБ CSV-файлу в GCS.
Я пробовал с другими таблицами с различным числом размеров, а затем некоторые приводили к разделенным файлам размером около 200 МБ, а другие - к одному огромному файлу.
В doc говорится, как будто таблицы всегда делятся на файлы размером 1 ГБ, но сейчас я не знаю правил, в которых эти файлы разделяются.
Q1 Как сделать так, чтобы таблицы всегда были разделены на файлы размером менее 1 ГБ?
Q2 Не могу ли я указать размер файлов, на которые делятся таблицы?