Есть ли хранилище столбцов, похожее на Vertica, которое построено поверх Hadoop ... Я не говорю о HBase, поскольку это хранилище разреженных матриц и не может получить уровень сжатия, который может быть достигнут чем-то вроде Vertica?
Спасибо
Вы ищете что-то вроде RCFile ? Это тип файла, который использует внутреннее хранилище столбцов.
RCFile - хорошее начало.RCFile хранит данные в формате PAX - в столбцах внутри блоков, размер которых может превышать размер блока HDFS.На VLDB 2011 есть статья, описывающая еще один столбчатый формат хранения здесь и сообщение в блоге с кратким сравнением с RCFile здесь .
Посмотрите на Hadapt http://hadapt.com/
Это коммерческая версия HadoopDB http://db.cs.yale.edu/hadoopdb/hadoopdb.html разработан в Йельском университете. Он может работать с БД, ориентированной на столбцы (которая установлена на каждом узле кластера компьютеров), и в то же время использует Hadoop для отказоустойчивого выполнения.
Я не работал с Hadoop, но я знаю, что Vertica пытается интегрироваться с Hadoop.
http://www.vertica.com/the-analytics-platform/native-bi-etl-and-hadoop-mapreduce-integration/