Преобразование на большие данные или склад - PullRequest
0 голосов
/ 25 ноября 2018

Я программист, новичок в мире больших данных и пытаюсь понять, как все компоненты сочетаются друг с другом.

Если мы реализуем решение для больших данных + хранилища, и необходимо провести преобразования на обеих платформах, чтобы сохранить хранилище легким, как мы разделяем виды преобразований, выполняемые на каждой платформе.В идеале я бы предпочел все преобразования на платформе больших данных, но я понимаю, что хранилище данных в некоторых аспектах является более мощным, чем большие данные, и быстрее в плане разработки.Какой лучший способ разработать решение для обеих платформ?

Я думал о том, что все, что касается таблиц / источников, должно выполняться на платформе больших данных.Будет ли приведенный ниже список хорошим началом для лучшей практики разделения проблем.

Преобразования на платформе больших данных:

  1. Очистка
  2. Дедупликация
  3. Пересмотр формата
  4. Реструктуризация ключа
  5. Проверка данных
  6. Отображение
  7. Поворот

Преобразования на платформе хранилища: только вкл.один источник

  1. Деривация
  2. Фильтрация
  3. Объединение
  4. Разделение
  5. Денормализация

Какая платформа лучше всего подходит для измерений и метрик?

Я понимаю, что не будет единого решения, но хотелось бы узнать, каковы лучшие практики и как люди управляют в разных организациях?Если мое понимание неверно, не могли бы вы указать мне правильное направление?

...