Импорт файлов .gz из S3 в BigQuery - PullRequest
0 голосов
/ 20 июня 2019

Я получил кучу сжатых CSV-файлов, находящихся в корзине S3, которые я хотел бы импортировать в BigQuery.Из документов видно, что BQ может импортировать сжатые данные из разных источников.Однако, когда я настраиваю задание на передачу данных, оно разрешает только форматы файлов CSV, JSON, AVRO, PARQUET, ORC.

После задания задания передачи, настроенного для формата файла CSV и запуска, регистрируется следующее:

Moving data from Amazon S3 to Google Cloud complete: Moved 64 object(s).    
Summary: succeeded 0 jobs, failed 0 jobs.

Так что, похоже, архивы .gz все равно не заглядывают.

Есть ли удобный способ импортировать сжатые CSV-файлы из S3 в таблицу BQ?

1 Ответ

0 голосов
/ 23 июля 2019

Если кому-то нужна информация о поддерживаемых форматах для передачи данных Amazon S3 :

Поддерживаемые форматы файлов

Служба передачи данных BigQuery в настоящее время поддерживает загрузку данных из Amazon S3 в одном из следующих форматов:

  • Значения, разделенные запятыми (CSV)
  • JSON (новая строка-ограничено)
  • Avro
  • Паркет
  • ORC

Поддерживаемые типы сжатия

Служба передачи данных BigQuery для Amazon S3 поддерживает загрузку сжатых данных.Типы сжатия, поддерживаемые службой передачи данных BigQuery, совпадают с типами сжатия, поддерживаемыми заданиями загрузки BigQuery.Для получения дополнительной информации см. Загрузка сжатых и несжатых данных .

Кроме того, здесь - инструкции по настройке передачи данных Amazon S3 и ссылкак устранению неисправностей .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...