Улей - это хорошо подходит для создания хранилища данных? - PullRequest
0 голосов
/ 17 января 2019

Так что, как и большинство корпоративных компаний, мы создали хранилище данных в Hadoop, в котором пользовательские запросы поддерживаются в Hive, и теперь, после нескольких месяцев и приемочного тестирования, все немного удивляются тому, что это не похоже на стандарт (Oracle / Netezza) база данных при использовании конечными пользователями для специального анализа данных. Хотя я понимаю, что это, вероятно, очень глупый способ выполнения проектов (мы должны были изучить варианты использования и наилучшие подходящие технологии, прежде чем создавать продукт), и я знаю основные технические аспекты того, как Hadoop отличается от машин с одним узлом ... Я все еще хотел бы понять, имеет ли смысл использовать Hadoop / Hive для хранилищ данных в любом сценарии? Например,

  • Всегда ли есть компромиссы в производительности запросов или их можно оптимизировать с помощью изменений конфигурации, горизонтального масштабирования оборудования?
  • Может ли он быть таким же быстрым, как что-то вроде Netezza - который использует нетоварное оборудование, но работает на аналогичной архитектуре?
  • Где Hadoop великий и абсолютно побеждает все остальное в сравнении?

Ответы [ 3 ]

0 голосов
/ 17 января 2019

Чтобы ответить на ваш вопрос,

  1. Всегда ли есть компромиссы в производительности запросов или их можно оптимизировать с помощью изменений конфигурации, горизонтального масштабирования оборудования?

Если вы используете только инструмент куста от Hadoop для запросов Adhoc, то это неправильный выбор для специальных запросов и анализа данных. Мы рассмотрим лучший вариант в соответствии с вашим вариантом использования и сделаем выбор технологий из Hive LLAP, HBase, Spark, SparkSQL, потоковой передачи Spark, Apache storm, Imapala, Apache Drill и Prestodb и т. Д.

  1. Может ли он быть таким же быстрым, как что-то вроде Netezza - который использует нетоварное оборудование, но функционирует на аналогичной архитектуре?

В настоящее время это лучший инструмент, который используется большинством организаций, но вы должны быть конкретны в выборе технических инструментов из стека технологий Hadoop в соответствии с вашим вариантом использования, и после изучения сделайте правильный выбор для технологии.

  1. Где Hadoop великий и абсолютно побеждает все остальное в сравнении?

Hadoop лучше всего подходит для реализации платформы озера данных в большой организации, где данные разбросаны по нескольким системам, и с помощью озера данных Hadoop вы можете получить данные в центре. Который может быть использован в качестве платформы для анализа данных для данных организации, накопленных за определенный период времени. Также может использоваться для обработки данных потока данных для получения результатов в режиме реального времени.

Надеюсь, это поможет.

0 голосов
/ 18 января 2019

Я бы сказал, что Hive MetaStore полезен больше, чем сам HiveServer2 в качестве интерфейса запроса.

MetaStore - это то, что Presto и Spark используют для получения данных гораздо быстрее, чем MapReduce, но, возможно, не так быстро, как хорошо оптимизированный запрос Tez, и в Hive v2.x +, например, вносятся улучшения, например, с LLAP.

В конце концов, Hive действительно полезен только в том случае, если конвейеры приема фактически хранят данные в столбчатых форматах ORC или Parquet. Отсюда и разумный механизм запросов может довольно быстро сканировать эти данные, и Hive просто считается де-факто реализацией этого шаблона доступа, тогда как Impala или Presto часто более часто используются для доступа ad hoc.

При этом Hive (и другие SQL в Hadoop) не используются для "сборки", он используется для "анализа"

И я не знаю, что вы подразумеваете под «стандартным» - Hive поддерживает любое соединение ODBC / JDBC, так что вы не заходите в CLI для полного доступа, а HUE или Zeppelin делают действительно хорошие блокноты для анализа SQL по улей.

0 голосов
/ 17 января 2019

Ну, есть много преимуществ использования больших данных в HDFS или, скажем, в экосистеме Hadoop. Чтобы назвать самые важные, есть кто-то, кто может хранить и обрабатывать огромные данные, и конфигурация довольно проста.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...