Google BigQuery Сжатие экстракта не работает сейчас - PullRequest
0 голосов
/ 28 августа 2018

Я запускаю извлечение таблицы больших запросов в хранилище Google Clous с помощью задания извлечения.

со сжатием: опция «GZIP»

но это не работа.

извлекается как файл CSV плоскости в gcs. не gzip файл.

Это работает вчера.

но не работает сегодня.

Ответы [ 2 ]

0 голосов
/ 28 августа 2018

Я испытал ту же проблему сегодня. Похоже, что Google BigQuery теперь сохраняет файлы по умолчанию в облачном хранилище Google в таком формате, что, хотя они и сжимаются в вашем хранилище, позволяет из своих файлов метаданные для облачного хранилища Google распаковывать их при загрузке (также называемые декомпрессивным транскодированием). Я нашел решение своей проблемы не из API BigQuery, а из API облачного хранилища.

Перед тем как бежать:

blob.download_to_file(file name)

Я использую:

blob.cache_control = ‘no-transform’

Кажется, это решает мою проблему. Кстати, решение выше для Google-Cloud-Python . Ваши инструменты могут быть разными, но я надеюсь, что помог кому-то. Другие инструменты могут иметь аналогичные решения для инструмента, который я использую, так что это может помочь.

0 голосов
/ 28 августа 2018

Как прокомментировано, это из-за декомпрессивного транскодирования GCS ' . Я думаю, что ошибка в том, что сжатый экспорт BQ заканчивается как несжатый. Посмотрим, изменят ли они это в течение дня.

Обходной путь: сброс заголовка

gsutil setmeta -h "Content-Encoding: "gs://bucket_name/path/*.gz

Публичный трекер: https://issuetracker.google.com/issues/113252895

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...