Я загружаю в s3 много xml файлов с разными тегами, но с одинаковыми значениями. Например, следующие файлы xml показывают данные игр p c:
файл 1:
<game_name>Assassin's Creed</game_name>
<price>200</price>
<priceUnit>USD</priceUnit>
<Vendor>Ubisoft</Vendor>
файл 2:
<game>Assassin's Creed</game>
<GameMaker>Ubisoft</GameMaker>
<Price>200</Price>
<Currency>USD</Currency>
Я настроил лямбда, которая принимает эти xml файлы, когда я их загружаю, и преобразует их в json файлы с тегами в качестве ключей (через xmltodict и загружая их в фрейм данных), например:
{
game_name : "Assassin's Creed",
price : "200",
priceUnit : "USD",
Vendor:"Ubisoft"
}
И я настроил другая лямбда, которая преобразует все эти jsons в jsons с одинаковыми ключами, так что у меня будет один и тот же унифицированный формат для всех json ключей.
Теперь мой вопрос: должен ли я иметь выделенное ведро для каждого типа данных ( xml, json после ETL, json после другого ETL), или я должен сохранить их в том же ведре с другим префиксом: bucket / xml, bucket / json_orig, bucket / json unified.
Aws рекомендует в качестве наилучшей практики использовать случайный префикс для каждого ключа в ведре, чтобы иметь хорошее распределение данных по разделам, но я не хочу ставить случайный префикс, потому что я хочу перемещаться в своем ведре легко .. * 101 6 *