Снежинка как архив магазина? - PullRequest
0 голосов
/ 13 октября 2019

(Требуется подтверждение следующего для пользователя «Снежинка»)


Пользователь:

Я хотел выяснить, подходит ли вариант использования архива правильнодля снежинки. Мое озеро данных / DW на Снежинке, но у меня есть требование архивировать данные, которые n лет. Должен ли я использовать S3 или Glacier вместо этого. Насколько я понимаю, если я архивирую на s3 / glacier, поиск будет сложным.

Ответ:

Я бы предложил сравнить стоимость хранения для хранилища Snowflake и AWS Glacier/S3.

В случае, если вы планируете запрашивать данные, у вас есть следующие параметры:

a. AWS Glacier Select (имеет ограничение)

b. Скопируйте данные с Glacier на S3, а затем отправьте запрос через Athena или Snowflake

c. Запрос снежинки для хранилища S3.

d. Если данные хранятся в Snowflake, то Snowflake sql.

Общие параметры хранения отдельных таблиц Snowflake выглядят лучше.


Можем ли мы получить подтверждение вышеизложенного от Сообщества SO?

Ответы [ 3 ]

2 голосов
/ 13 октября 2019

По моему мнению, хранение данных в Snowflake больше не является роскошью, и для клиентов, работающих на AWS, базовое хранилище - S3 (и сжато по умолчанию в Snowflake). Вы все еще можете выполнить «архивирование» в смысле перемещения старых данных в другую таблицу / схему, таким образом вы можете сохранить базовую таблицу определенного размера (и, возможно, определенной производительности, но даже в Snowflake это может бытьСпорный момент тоже).

Стоит отметить, что AWS Glacier действительно дешев, до тех пор, пока вам не понадобится извлечь из него данные.

1 голос
/ 18 октября 2019

Как отмечалось в предыдущем комментарии, вы можете переместить данные в отдельную базу данных в виде архива и при необходимости ограничить доступ к ним. И Glacier не слишком удачный вариант, если вы когда-нибудь планируете запросить его, поскольку именно здесь вы оплачиваете расходы.

Еще одна вещь, которую следует учитывать, заключается в том, что большая разница в простом хранении данных в S3 по сравнению со Snowflake,входит в стоимость загрузки / анализа данных. Загрузка / анализ требует значительных вычислительных ресурсов, возможно, даже хуже, так что если вы используете данные JSON вместо CSV. В вашем случае, если у вас уже есть данные в Snowflake, экспорт обратно в S3 кажется пустой тратой.

1 голос
/ 14 октября 2019

другой вариант - заархивировать обратно в S3 из снежинки и использовать внешнюю таблицу для заархивированных данных. Это будет медленнее для поиска, и я не думаю, что это будет дешевле, чем использование Snowflake. Я думаю, что с точки зрения только чистых затрат на хранение, ледник будет самым дешевым, но если вам когда-либо понадобится запросить данные, он не оптимален.

...