В настоящее время существует патч, который позволяет загружать данные между HBase и Hive. Вы можете найти его здесь:
http://wiki.apache.org/hadoop/Hive/HBaseIntegration
Затраты на реализацию выглядят довольно высокими.
Может быть проще запустить сканирование таблицы HBase и сохранить его во внешнем файле, а затем импортировать его в Hive для обработки данных. (Это также довольно громоздко, но если вы делаете это на регулярной основе, вы можете написать сценарий.) Это решение, над которым я сейчас работаю. Я дам вам знать, как это происходит.
Что касается того, почему вы бы выбрали HBase вместо Hive, они на самом деле не взаимозаменяемы. HBase - это масштабируемое хранилище данных, построенное на основе Hadoop, с небольшой поддержкой анализа данных. Hive, с другой стороны, не используется для хранения данных в производственной среде, а скорее позволяет очень просто выполнять конкретные запросы для больших объемов данных.