Хранение реляционных данных в hadoop для целей анализа - PullRequest
0 голосов
/ 28 января 2019

Я много читал о кластере hadoop и различных вариантах хранения наших реляционных данных в hadoop, чтобы мы могли иметь централизованный кластер данных как для наших реляционных, так и нереляционных данных для целей анализа.Но когда я читаю больше, все становится сложнее.Я не знаю, как лучше всего преобразовать мои реляционные данные в hadoop.

  • Хранить их в большой таблице в HBase (я думаю, было бы очень некрасиво объединить все таблицы)
  • Хранить их в разных таблицах в Hive?
  • Есть ли другие варианты?

Я думал, что могу сохранить каждую таблицу в Hive, а затем использовать SPARK SQL для выполнения запроса.Я не знаю, лучший ли это вариант или нет?Может ли кто-нибудь помочь мне немного с этим?

1 Ответ

0 голосов
/ 28 января 2019

Если вы планируете использовать hadoop для целей OLAP, то вы нашли правильный выбор.Теперь дни Озеро данных является более популярным, чем хранилище данных, среди предприятий, чтобы иметь данные в централизованном месте для целей анализа данных.

Чтобы ответить более конкретно на ваш вопрос для преобразования реляционных данных, вы можете использовать следующие инструменты,

  1. Hive : Наиболее популярные инструменты для хранилища данных Hadoop, аналогичные языку SQL для анализа.Хотя запросы имеют некоторую задержку при анализе данных, это связано с тем, что обработка данных выполняется на диске.
  2. HBase : это произвольный доступ в реальном времени к данным в Hadoop, и он работает по принципуданных пары ключ-значение.И выполнение операции объединения невозможно с этим.

  3. SparkSQL : В наши дни SparkSQL более популярен для обработки данных, поскольку все данные обрабатываются в памяти кластера hadoop, и поэтому он быстрее по сравнению с задержкой кустов и запросов в секундах.

Существуют и другие инструменты для анализа полуструктурированных, неструктурированных и потоковых данных Hadoop.И этот вариант использования быстро в будущем.Таким образом, для более устойчивого решения Hadoop является лучшим решением.

...