Преобразование данных AWS 100 ТБ в состоянии покоя S3 - PullRequest
0 голосов
/ 08 июля 2019

У меня около 50 ТБ данных в корзине S3, в корзине нет разделов. Файлы в формате json имеют размер около 100 КБ каждый.

Мне нужно выполнить разбиение этих данных и поместить их в другую корзину s3, чтобы сохранить их в структуре yyyy / mm / dd / filename.json или добавить поле пользовательских метаданных к файлам, которое является исходной последней измененной датой. на самом файле и переместите его в другое ведро.

Я смотрел на варианты как

  1. Делаем это с помощью искрового кластера, монтируем оба сегмента как dbfs, а затем выполняем преобразование и копируем в целевой блок.
  2. Я также попытался написать лямбда-функцию, которая может сделать то же самое для данного файла и вызвать его из другой программы. Для копирования 1000 файлов требуется около 15 секунд.
  3. Я также рассмотрел вопрос создания инвентаризации s3 и запуска на ней заданий, но добавить настраиваемые метаданные или структуру разделов, так сказать, невозможно.

Есть ли очевидный выбор, который я могу упустить или есть лучшие способы сделать это?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...