Question

У меня около 50 ТБ данных в корзине S3, в корзине нет разделов. Файлы в формате json имеют размер около 100 КБ каждый.

Мне нужно выполнить разбиение этих данных и поместить их в другую корзину s3, чтобы сохранить их в структуре yyyy / mm / dd / filename.json или добавить поле пользовательских метаданных к файлам, которое является исходной последней измененной датой. на самом файле и переместите его в другое ведро.

Я смотрел на варианты как

Делаем это с помощью искрового кластера, монтируем оба сегмента как dbfs, а затем выполняем преобразование и копируем в целевой блок.
Я также попытался написать лямбда-функцию, которая может сделать то же самое для данного файла и вызвать его из другой программы. Для копирования 1000 файлов требуется около 15 секунд.
Я также рассмотрел вопрос создания инвентаризации s3 и запуска на ней заданий, но добавить настраиваемые метаданные или структуру разделов, так сказать, невозможно.

Есть ли очевидный выбор, который я могу упустить или есть лучшие способы сделать это?

Преобразование данных AWS 100 ТБ в состоянии покоя S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Преобразование данных AWS 100 ТБ в состоянии покоя S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы