Трудно найти много о Hive, но я нашел этот фрагмент на сайте Hive, который сильно склоняется в пользу HBase (жирным шрифтом добавлено):
Hive основан на Hadoop, который является системой пакетной обработки. Соответственно, эта система не делает и не может обещать низкие задержки при запросах . Парадигма здесь строго состоит в том, чтобы отправлять задания и получать уведомление о завершении заданий, а не в режиме реального времени. В результате его не следует сравнивать с такими системами, как Oracle, где анализ выполняется на значительно меньшем количестве данных, но анализ выполняется гораздо более итеративно, а время отклика между итерациями составляет менее нескольких минут. Для запросов Hive время ответа даже для самых маленьких заданий может составлять порядка 5-10 минут, а для более крупных заданий это может даже составлять часы.
Поскольку HBase и HyperTable - это все о производительности (смоделированы на Google BigTable), они звучат так, как будто они будут намного быстрее, чем Hive, за счет функциональности и более высокой кривой обучения (например, у них нет объединений). или SQL-подобный синтаксис).