Подход для большого набора данных для отчетности - PullRequest
0 голосов
/ 03 июля 2019

У меня есть 220 миллионов необработанных файлов в AWS s3, которые я собирался объединить в один файл, который оценивается примерно в 10 терабайт.Файл слияния будет служить таблицей фактов, но в формате файла для целей отчетности для аудита.

Необработанные файлы являются исходными данными из приложения.Если в приложении появятся какие-либо новые изменения данных, содержимое файла будет изменено.

Я хотел бы спросить, кто-нибудь сталкивался с этим сквозным процессом для этого пользовательского случая?

s3 -> ETL (объединение файлов) -> s3 -> отчетность (таблица)

1 Ответ

3 голосов
/ 03 июля 2019

Я лично не пробовал, но это как раз то, для чего создана Athena ... Пропуск процесса ETL и выполнение запросов непосредственно из файлов. Есть ли причина, по которой вы записываете все это в один файл, а не разбрасываете его? Переписывать файл размером 10 ТБ снова и снова очень дорого и отнимает много времени ... Я лично, по крайней мере, исследовал бы хранение файлов 1-1 с исходными файлами.

  1. Создать триггер s3, который срабатывает при перезаписи файла на s3
  2. Создайте лямбду, которая создает файлы отчетов "готов к аудиту" на s3
  3. Используйте AWS Athena для запроса этих файлов отчетов
  4. Таблица соединителя с Афиной для ваших отчетов
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...