Рекомендуемое решение ETL для больших данных, поступающих с MySQL? - PullRequest
0 голосов
/ 06 февраля 2020

У меня есть ситуация, когда третья сторона хранит данные в ежедневных таблицах, когда, если количество записей превышает два миллиона, создается последующая таблица и т. Д. С именем [date] _x.

Теперь мы имеют требования к отчетности и должны использовать эти данные. В прошлом было выполнено ручное UNION SQL и другие операции ETL, которые я пытаюсь автоматизировать.

Моим первым чувством было бросить все в озеро данных и уменьшить карту на AWS. Однако, глядя на Таблицу, я надеялся использовать некоторую ее автоматизацию для ускорения решения. Теперь я не уверен, что это лучшее решение.

Предложения, пожалуйста?

1 Ответ

0 голосов
/ 06 февраля 2020

Предполагая, что вы не замените программное обеспечение, которое генерирует «ежедневные таблицы», давайте разработаем альтернативу.

Я предполагаю, что эти таблицы являются чем-то вроде таблицы «Факт» хранилища данных. То есть большой ориентированный на время набор данных. Правильный? (Пожалуйста, укажите SHOW CREATE TABLE для одного из них.)

И ваши отчеты должны переваривать и суммировать эти данные несколькими различными способами?

Сначала подведите итоги каждой ежедневной таблицы. Затем составьте отчеты из сводных таблиц. Это включает в себя проектирование и создание нескольких «Сводных таблиц». Первоначально суммируйте каждую ежедневную таблицу фактов в них. После этого нужно взять каждую новую таблицу фактов (каждую ночь?) И суммировать ее в сводные таблицы.

http://mysql.rjweb.org/doc.php/summarytables

...