Суррогатные ключи с использованием Apache Spark - PullRequest
0 голосов
/ 13 ноября 2018

У нас есть основанная на событиях инфраструктура, в которой мы используем потоковую передачу Kafka и Spark и, наконец, сохраняем данные в базе данных. Я родом из мира хранилищ данных. Я хотел бы использовать суррогатные ключи, сгенерированные для некоторых данных измерений, которые мы используем. Как это обычно достигается в мире искр? Является ли суррогатный ключ актуальной темой в современной архитектуре больших данных? Где я могу получить хорошую информацию о переходе от хранилищ данных к архитектуре больших данных и о том, как мы работаем с моделями данных в архитектуре больших данных?

1 Ответ

0 голосов
/ 13 ноября 2018

Хотя суррогатные ключи не распространены в «современной архитектуре больших данных», для них все еще существуют варианты использования. Суррогатные ключи могут по-прежнему упрощать запросы сценариев использования бизнес-аналитики, таких как медленно изменяющиеся измерения. Это более важно, если вы переносите существующую архитектуру хранилища данных с бизнес-пользователями и инструментами на новую архитектуру конвейера больших данных, одновременно пытаясь поддерживать те же бизнес-инструменты и процессы, где существующая система использует суррогатные ключи.

Является ли это хорошей идеей, зависит от вашего варианта использования и реальной архитектуры.

Я не использую суррогатные ключи для разработчиков. Все еще есть ценность, но она не стоит сложности конвейера суррогатного ключа. Вместо сохранения суррогатных ключей вся эта логика обычно может выполняться на лету во время запроса с достаточной вычислительной мощностью / более длинными запросами.

Суррогатные ключи имеют много применений. Возможно, я не рассмотрел ваш вариант использования. Если это так, расскажите нам больше о том, что вы хотите использовать суррогатные ключи. Мне очень интересно услышать о том, что сделали другие.

...