Лучший подход к загрузке текстового файла (.txt) в таблицу больших запросов - PullRequest
0 голосов
/ 23 января 2020

Кто-нибудь получил какую-либо практическую идею относительно того, каков наилучший из возможных подходов для загрузки текстового файла в таблицу больших запросов? У меня есть несколько сжатых текстовых файлов, которые мне нужно загрузить с удаленного SFTP-сервера и загрузить в таблицу больших запросов. Должен ли я загрузить его в облачное хранилище Google и отправить его оттуда в bigquery для ускорения работы? Текстовые файлы около 5 ГБ каждый и будет расти дальше. Спасибо.

1 Ответ

1 голос
/ 24 января 2020

Первое, что следует учитывать при загрузке файлов из локального источника данных, - это ограничения, согласно документации .

Загрузка данных из локального источника данных подчиняется следующим ограничениям:

Подстановочные знаки и списки, разделенные запятыми, не поддерживаются при загрузке файлов из локального источник данных. Файлы должны быть загружены индивидуально. При использовании веб-интерфейса classi c BigQuery файлы, загружаемые из локального источника данных, должны иметь размер 10 МБ или менее и содержать менее 16 000 строк.

Кроме того, с помощью приведенной выше ссылки, Есть инструкции, как загрузить ваши данные с помощью консоли или CLI.

Тем не менее, используя облачное хранилище, вы можете воспользоваться долгосрочным хранилищем, что означает, что вы не платите за загрузку данных в bigquery, а за хранение данных в облачном хранилище. Вы можете прочитать больше об этом здесь .

Наконец, я хотел бы, чтобы вы рассмотрели две точки Внешние и родные таблицы в bigquery .

Собственные таблицы: таблицы, поддерживаемые собственным хранилищем BigQuery.

Внешние таблицы: таблицы, поддерживаемые внешним хранилищем BigQuery. Для получения дополнительной информации см. Запрос внешних источников данных.

Другими словами, используя собственные таблицы, вы импортируете полные данные в BigQuery. Таким образом, это имеет тенденцию ко мне быстрее при выполнении анализа данных. Между тем внешние таблицы не хранят данные в BigQuery, а ссылаются на данные из внешнего источника.

Стоимость хранения в BigQuery выше, чем в Облачное хранилище . Хотя запросы к внешним таблицам выполняются медленнее, чем к собственным таблицам, в основном, если файлы имеют значительный размер. Наконец, поскольку внешние таблицы являются указателями на файлы, вам не нужно ждать загрузки данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...