Я программист, новичок в мире больших данных и пытаюсь понять, как все компоненты сочетаются друг с другом.
Если мы реализуем решение для больших данных + хранилища, и необходимо провести преобразования на обеих платформах, чтобы сохранить хранилище легким, как мы разделяем виды преобразований, выполняемые на каждой платформе.В идеале я бы предпочел все преобразования на платформе больших данных, но я понимаю, что хранилище данных в некоторых аспектах является более мощным, чем большие данные, и быстрее в плане разработки.Какой лучший способ разработать решение для обеих платформ?
Я думал о том, что все, что касается таблиц / источников, должно выполняться на платформе больших данных.Будет ли приведенный ниже список хорошим началом для лучшей практики разделения проблем.
Преобразования на платформе больших данных:
- Очистка
- Дедупликация
- Пересмотр формата
- Реструктуризация ключа
- Проверка данных
- Отображение
- Поворот
Преобразования на платформе хранилища: только вкл.один источник
- Деривация
- Фильтрация
- Объединение
- Разделение
- Денормализация
Какая платформа лучше всего подходит для измерений и метрик?
Я понимаю, что не будет единого решения, но хотелось бы узнать, каковы лучшие практики и как люди управляют в разных организациях?Если мое понимание неверно, не могли бы вы указать мне правильное направление?