Question

Мне интересно узнать, как недавно выпущенный (http://mirror.facebook.com/facebook/hive/hadoop-0.17/) Hive по сравнению с HBase с точки зрения производительности. SQL-подобный интерфейс, используемый Hive, очень предпочтительнее реализованного нами HBase API. .

Chris Bunch · Answer 1 · 31 августа 2008

Трудно найти много о Hive, но я нашел этот фрагмент на сайте Hive, который сильно склоняется в пользу HBase (жирным шрифтом добавлено):

Hive основан на Hadoop, который является системой пакетной обработки. Соответственно, эта система не делает и не может обещать низкие задержки при запросах . Парадигма здесь строго состоит в том, чтобы отправлять задания и получать уведомление о завершении заданий, а не в режиме реального времени. В результате его не следует сравнивать с такими системами, как Oracle, где анализ выполняется на значительно меньшем количестве данных, но анализ выполняется гораздо более итеративно, а время отклика между итерациями составляет менее нескольких минут. Для запросов Hive время ответа даже для самых маленьких заданий может составлять порядка 5-10 минут, а для более крупных заданий это может даже составлять часы.

Поскольку HBase и HyperTable - это все о производительности (смоделированы на Google BigTable), они звучат так, как будто они будут намного быстрее, чем Hive, за счет функциональности и более высокой кривой обучения (например, у них нет объединений). или SQL-подобный синтаксис).

Jeff Hammerbacher · Answer 2 · 04 июня 2010

С одной стороны, Hive состоит из пяти основных компонентов: грамматики и анализатора, подобного SQL, планировщика запросов, механизма выполнения запросов, хранилища метаданных и столбчатого макета хранилища. Основное внимание уделяется аналитическим рабочим нагрузкам в стиле хранилища данных, поэтому поиск значений по ключам с низкой задержкой не требуется.

HBase имеет собственный репозиторий метаданных и столбчатый макет хранилища. Можно создавать запросы HiveQL по таблицам HBase, что позволяет HBase использовать преимущества грамматики и анализатора Hive, планировщика запросов и механизма выполнения запросов. Подробнее см. http://wiki.apache.org/hadoop/Hive/HBaseIntegration.

Tim · Answer 3 · 26 июня 2009

Hive - это аналитический инструмент. Как и свинья, он был разработан для специальной обработки потенциально огромных объемов данных за счет использования функции уменьшения карты. Думайте террабайты. Представьте, что вы пытаетесь сделать это в реляционной базе данных ...

HBase - хранилище значений ключей на основе столбцов на основе BigTable. Вы не можете выполнять запросы сами по себе, хотя вы можете запускать задания по сокращению карты через HBase. Основной вариант использования - выборка строк по ключу или сканирование диапазонов строк. Основной особенностью является возможность иметь локальность данных при сканировании по диапазонам ключей строк для «семейства» столбцов.

haijin · Answer 4 · 06 июня 2010

По моим скромным познаниям, улей более сравним с свиньей Hive похож на SQL, а Pig основан на скриптах. Hive кажется более сложным с оптимизацией запросов и механизмами выполнения, а также требует, чтобы конечный пользователь указал параметры схемы (раздел и т. Д.). Оба предназначены для обработки текстовых файлов или sequenceFiles.

HBase предназначен для хранения и извлечения данных значения ключа ... вы можете сканировать или фильтровать эти пары значений ключа (строки). Вы не можете выполнять запросы к строкам (ключ, значение).

Ravindra babu · Answer 5 · 15 февраля 2016

Hive и HBase используются для различных целей .

Улей:

Плюсы:

Apache Hive - это инфраструктура хранилища данных , построенная на основе Hadoop .
Это позволяет запрашивать данные, хранящиеся в HDFS , для анализа через HQL , SQL-подобный язык , который будет преобразован в серию Карта Уменьшить количество рабочих мест
Он запускает только пакетных процессов в Hadoop.
это JDBC-совместимый , он также интегрируется с существующими инструментами на основе SQL
Улей поддерживает разделов
Поддерживается аналитический запрос данных , собранных за определенный период времени

Минусы:

В настоящее время он не поддерживает операторы обновления
Должна быть предусмотрена предопределенная схема для сопоставления файлов и каталогов с колонками

HBase:

Плюсы:

Масштабируемая распределенная база данных , которая поддерживает структурированное хранилище данных для больших таблиц
Предоставляет произвольный доступ в режиме реального времени для чтения / записи к вашим Большим данным. Операции HBase выполняются в режиме реального времени на его базе данных, а не на заданиях MapReduce
поддерживает разделы для таблиц, и таблицы далее разбиваются на семейства столбцов
Горизонтальное масштабирование с огромным количеством данных с помощью Hadoop
Предоставляет доступ к данным на основе ключа при сохранении или получении. поддерживает добавление или обновление строк.
Поддерживает версионирование данных.

Минусы:

Запросы HBase написаны на пользовательском языке, который необходимо выучить
HBase не полностью совместим с ACID
Его нельзя использовать со сложными шаблонами доступа (например, соединениями)
Это также не полная замена HDFS при выполнении большого пакета MapReduce

Резюме:

Hive можно использовать для аналитических запросов, а HBase - для запросов в реальном времени. Данные можно даже читать и записывать из Hive в HBase и обратно.

Shawn H · Answer 6 · 05 февраля 2013

Что касается самых последних выпусков Hive, многое изменилось, что требует небольшого обновления, поскольку Hive и HBase теперь интегрированы . Это означает, что Hive можно использовать как слой запросов к хранилищу данных HBase. Теперь, если люди ищут альтернативные интерфейсы HBase, Pig также предлагает действительно хороший способ загрузки и хранения данных HBase . Кроме того, похоже, что Cloudera Impala может предложить существенную производительность запросов на основе Hive поверх HBase. Они требуют в 45 раз более быстрых запросов по сравнению с традиционными настройками Hive.

sras · Answer 7 · 11 мая 2015

Чтобы сравнить Hive с Hbase, я хотел бы напомнить определение ниже:

База данных, предназначенная для обработки транзакций, не предназначена для обработки аналитика. Он не структурирован, чтобы хорошо выполнять аналитику. Хранилище данных, с другой стороны, он структурирован для быстрой и простой аналитики.

Hive - это инфраструктура хранилища данных, построенная на основе Hadoop, которая подходит для длительных заданий ETL. Hbase - это база данных, предназначенная для обработки транзакций в реальном времени

Как Hive сравнивается с HBase?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как Hive сравнивается с HBase?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы