Parquet - это столбчатый формат данных, что означает, что загрузка данных требует чтения всех столбцов. В паркет столбцы делятся на страницы. BigQuery сохраняет целые несжатые страницы для каждого столбца в памяти при чтении данных с них. Если входной файл содержит слишком много столбцов, работники BigQuery могут получить ошибки Out of Memory
.
Даже если точное ограничение не применяется, как это происходит с другими форматами, рекомендуется, чтобы записи находились в диапазоне 50 Мб, загрузка больших записей может привести к resourcesExceeded
ошибкам .
Принимая во внимание вышеизложенные соображения, было бы замечательно уточнить следующие моменты:
- Каков максимальный размер строк в файле Parquet?
- Каков максимальный размер страницы в столбце?
Эту информацию можно получить из общедоступного инструмента .
Если вы думаете об увеличении выделенной памяти для запросов, вам нужно прочитать о слотах Bigquery .