aws - ведро на результат etl или одно ведро с другим префиксом - PullRequest
0 голосов
/ 07 мая 2020

Я загружаю в s3 много xml файлов с разными тегами, но с одинаковыми значениями. Например, следующие файлы xml показывают данные игр p c:

файл 1:

<game_name>Assassin's Creed</game_name>
<price>200</price>
<priceUnit>USD</priceUnit>
<Vendor>Ubisoft</Vendor>

файл 2:

<game>Assassin's Creed</game>
<GameMaker>Ubisoft</GameMaker>
<Price>200</Price>
<Currency>USD</Currency>

Я настроил лямбда, которая принимает эти xml файлы, когда я их загружаю, и преобразует их в json файлы с тегами в качестве ключей (через xmltodict и загружая их в фрейм данных), например:

{
game_name : "Assassin's Creed",
price : "200", 
priceUnit : "USD",
Vendor:"Ubisoft"
}

И я настроил другая лямбда, которая преобразует все эти jsons в jsons с одинаковыми ключами, так что у меня будет один и тот же унифицированный формат для всех json ключей.

Теперь мой вопрос: должен ли я иметь выделенное ведро для каждого типа данных ( xml, json после ETL, json после другого ETL), или я должен сохранить их в том же ведре с другим префиксом: bucket / xml, bucket / json_orig, bucket / json unified.

Aws рекомендует в качестве наилучшей практики использовать случайный префикс для каждого ключа в ведре, чтобы иметь хорошее распределение данных по разделам, но я не хочу ставить случайный префикс, потому что я хочу перемещаться в своем ведре легко .. * 101 6 *

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...