У меня есть 220 миллионов необработанных файлов в AWS s3, которые я собирался объединить в один файл, который оценивается примерно в 10 терабайт.Файл слияния будет служить таблицей фактов, но в формате файла для целей отчетности для аудита.
Необработанные файлы являются исходными данными из приложения.Если в приложении появятся какие-либо новые изменения данных, содержимое файла будет изменено.
Я хотел бы спросить, кто-нибудь сталкивался с этим сквозным процессом для этого пользовательского случая?
s3 -> ETL (объединение файлов) -> s3 -> отчетность (таблица)