восстановление S3 из другого синхронизированного версионного S3 до определенного момента времени - PullRequest
0 голосов
/ 26 марта 2019

Мы используем s3 в качестве хранилища данных, куда файлы доставляются из kafka и обрабатываются спарк позже. Учитывая, что процесс загрузки файлов в kafka не может воспроизводить файлы через некоторое время (так как источник исчезает примерно через 24 часа), нам нужно сделать резервную копию s3 на случай, если нам нужно будет повторно запустить преобразования (в случае файлов S3 или даже самой корзины S3 удалены).

Что касается резервного копирования объектов, кажется, что управление версиями S3 может быть бесполезным (мы всегда добавляем новые файлы и не изменяем существующие, однако это не будет полностью защищать от злонамеренных действий, которые будут удалять файлы и их версии) .

Так что, кажется, было бы полезно иметь какую-то резервную копию в другой S3 (разрешение здесь отличается от исходного S3, поэтому разные пользователи не получают доступ к другому S3).

Традиционно мы делали бы полное резервное копирование один раз в неделю, а в течение следующих семи дней мы увеличивали и сохраняли их некоторое время.

Похоже на синхронизацию с резервной копией S3 (мы не синхронизируем удаленные файлы) и способ восстановить вершину версионных файлов старше определенной метки времени, в основном это восстановит S3 до определенной метки времени.

Есть ли инструмент или способ, который может этого достичь (если не писать собственный сценарий)?

...