Аварийное восстановление для S3 Bucket с большим количеством файлов Parquet - PullRequest
0 голосов
/ 08 мая 2020

У меня есть ведро S3 с большим количеством паркетных разделенных файлов внутри каждого раздела. Все файлы в корзине очень важны для бизнеса, и если кто-то их удалит, это будет катастрофой. Теперь, если я использую Glacier / Glacier D.Arch., Я опасаюсь, что мои затраты на поиск в случае отказа будут слишком высокими из-за количества отдельных паркетных файлов. Как мне лучше всего создать аварийное восстановление для такой корзины с наименьшими затратами? (Предполагая, что пользователи не удаляют необходимые данные каждый месяц из c.)

Пример случая: Учтите, у меня 100 ГБ данных, заполненных файлами по 150 КБ. Ежегодная дополнительная стоимость 1 случайного удаления в Glacier составляет 53 доллара США, а на Glacier Deep Arch - 82,4 доллара США. Теперь просто измените размер файла со 150 КБ на 1024 КБ. Эти затраты изменятся на 21 доллар США для Glacier и 16 долларов США для Glacier Deep Arch. Моя основная проблема - количество паркетных пилок, которые повышают стоимость доступного поиска.

Ответы [ 3 ]

3 голосов
/ 08 мая 2020

Если вы просто хотите предотвратить случайное удаление объектов кем-то, я не думаю, что S3 Glacier или Glacier Deep Archive - правильный способ go. Вместо этого вы можете добиться этого, включив управление версиями объекта и MFA delete .

Также имейте в виду, что Amazon S3 Glacier и S3 Glacier Deep Archive имеют дополнительные накладные расходы. 32 КБ на объект. Учитывая, что размер ваших объектов в среднем составляет 150 КБ, это приведет к увеличению стоимости на 21,3%.

2 голосов
/ 08 мая 2020

Я не могу быстро произвести математические вычисления, чтобы сравнить затраты, но если вас больше всего беспокоит случайное удаление файлов, и если обычно файлы просто помещаются туда и не заменяются на регулярной основе, вы можете рассмотреть возможность включения управления версиями S3 - таким образом вы можете восстановить старые версии файлов, если кто-то перезапишет один из них, и если пользователь удалит их, они фактически не будут удалены.

https://aws.amazon.com/blogs/aws/amazon-s3-enhancement-versioning/

https://docs.aws.amazon.com/AmazonS3/latest/dev/Versioning.html

0 голосов
/ 08 мая 2020

Glacier / Glacier Deep Archive всегда будет наиболее рентабельным, поэтому я не буду беспокоиться о стоимости извлечения.

Вне этого вы можете использовать репликацию в другое ведро S3, чтобы запустите дубликат файлов, вы можете объединить это с правилом жизненного цикла , чтобы снизить ценовой класс до нечастого доступа.

Кроме того, исходя из вашей обеспокоенности случайным удалением, невозможно ли предотвратить члены вашей команды не имеют разрешения DeleteObject для этой конкретной c корзины?

...