У меня есть пакетный файл (10 ГБ) из xml сообщений, который сбрасывается в корзину S3 один раз в день. Это один файл из нескольких xml сообщений. Сообщения xml глубоко вложены и сложны. Мне поручено извлечь 100 элементов из каждого xml сообщения и записать его в корзину S3 как CSV (ежедневно). Каков наилучший подход к этой проблеме?
XML слишком сложен для AWS гусеничного клея. Итак, моя первоначальная мысль - эфемерная работа с зажиганием EMR.