Question

У меня есть 220 миллионов необработанных файлов в AWS s3, которые я собирался объединить в один файл, который оценивается примерно в 10 терабайт.Файл слияния будет служить таблицей фактов, но в формате файла для целей отчетности для аудита.

Необработанные файлы являются исходными данными из приложения.Если в приложении появятся какие-либо новые изменения данных, содержимое файла будет изменено.

Я хотел бы спросить, кто-нибудь сталкивался с этим сквозным процессом для этого пользовательского случая?

s3 -> ETL (объединение файлов) -> s3 -> отчетность (таблица)

Rob Conklin · Answer 1 · 03 июля 2019

Я лично не пробовал, но это как раз то, для чего создана Athena ... Пропуск процесса ETL и выполнение запросов непосредственно из файлов. Есть ли причина, по которой вы записываете все это в один файл, а не разбрасываете его? Переписывать файл размером 10 ТБ снова и снова очень дорого и отнимает много времени ... Я лично, по крайней мере, исследовал бы хранение файлов 1-1 с исходными файлами.

Создать триггер s3, который срабатывает при перезаписи файла на s3
Создайте лямбду, которая создает файлы отчетов "готов к аудиту" на s3
Используйте AWS Athena для запроса этих файлов отчетов
Таблица соединителя с Афиной для ваших отчетов

Подход для большого набора данных для отчетности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Подход для большого набора данных для отчетности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы