лучшие практики по объединению данных во время ETL - PullRequest
0 голосов
/ 08 мая 2018

Я гуглил и не могу найти ответ на свой вопрос. Допустим, у меня есть 2 большие таблицы, и моя окончательная таблица назначения требует строк, которые объединяются между этими 2 таблицами. С точки зрения масштабируемости и лучших практик, где я должен делать эти объединения? В исходной базе данных? В памяти после извлечения? Или постановочные столы?

Спасибо

1 Ответ

0 голосов
/ 08 мая 2018

Согласен, здесь нет никаких правил, просто здравый смысл. Полезно как можно скорее избавиться от ненужных данных, чтобы в будущем вы тратили меньше ресурсов / хранилища, но вам следует подумать о влиянии на вашу среду PROD.

постановочные столы

Копирование данных в Staging дает вам больше свободы и гибкости, возможность попробовать разные подходы ETL и т. Д. Я бы сделал это там. Даже если ваш ETL пока выглядит простым, он может вырасти в будущем, поэтому вам нужно достаточно места, чтобы поиграть со своими данными.

в памяти

в памяти где? Если это экземпляр Prod, и вы используете 95% памяти ... :) Все вычисления в любом случае находятся "в памяти".

С уважением.

...