У меня 500 ГБ неструктурированных данных. Я хочу использовать его для создания нескольких представлений об этих данных для легкого и быстрого потребления. Любые новые данные, поступающие в систему, должны быть проиндексированы во всех необходимых им представлениях, а затем где-то сохранены в необработанном формате. Помимо этого, система должна иметь возможность для специальных запросов. Эти запросы могут занять нетривиальное время для выполнения. Я рассматриваю Cassandra + Hadoop + Hive, HBase, Couchbase и Riak в качестве возможных кандидатов для моего варианта использования.
Будет поступать больше данных, и я планирую хранить в системе не более пары ТБ данных в любой момент времени.
Мысли