В чем преимущество интеграции Hbase и Hive - PullRequest
2 голосов
/ 06 января 2011

Недавно я наткнулся на блог, где автор упоминал об интеграции Hbase и Hive. Будет ли это возможно, и если да, то в чем преимущество использования обоих (с точки зрения производительности и масштабируемости). Пожалуйста, поправьте меня, если я ошибся.

Ответы [ 2 ]

2 голосов
/ 12 января 2011

Я думаю, что будет возможно, но немного тривиально настроить - возможно, финал CDH3 будет включать интеграцию, когда она выйдет.

Преимущества: запросы Hive по hbase. Подумайте, объединения и простой способ выполнять агрегаты и простые операции с вашими данными HBase.

Почему бы просто не использовать Hive и не беспокоиться о HBase? HBase предоставляет вам масштабируемую инфраструктуру хранения, которая хранит данные в сети. StumbleUpon использует HBase для своего живого сайта. Hive не является механизмом запросов в реальном времени, поэтому его хранилище данных не может использоваться для подобных целей. Hive over HBase дает вам преимущество обоих миров.

0 голосов
/ 23 марта 2011

В настоящее время существует патч, который позволяет загружать данные между HBase и Hive. Вы можете найти его здесь:

http://wiki.apache.org/hadoop/Hive/HBaseIntegration

Затраты на реализацию выглядят довольно высокими.

Может быть проще запустить сканирование таблицы HBase и сохранить его во внешнем файле, а затем импортировать его в Hive для обработки данных. (Это также довольно громоздко, но если вы делаете это на регулярной основе, вы можете написать сценарий.) Это решение, над которым я сейчас работаю. Я дам вам знать, как это происходит.

Что касается того, почему вы бы выбрали HBase вместо Hive, они на самом деле не взаимозаменяемы. HBase - это масштабируемое хранилище данных, построенное на основе Hadoop, с небольшой поддержкой анализа данных. Hive, с другой стороны, не используется для хранения данных в производственной среде, а скорее позволяет очень просто выполнять конкретные запросы для больших объемов данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...