Подходит ли Cassandra в качестве основного хранилища данных? - PullRequest
10 голосов
/ 04 декабря 2009

Я оцениваю платформу хранения для будущего проекта и продолжаю возвращаться к Кассандре. Для этого проекта потеря любого объема данных недопустима. До сих пор мы использовали реляционную базу данных (Microsoft SQL Server), но данные настолько разнообразны и велики, что стали проблемой для хранения и запроса.

Достаточно ли надежна Cassandra для использования в качестве основного хранилища данных? Или его следует использовать только для зеркального отображения существующих данных для ускорения доступа?

Ответы [ 2 ]

9 голосов
/ 05 декабря 2009

Анекдотично: да, Twitter, Digg, Ooyala, SimpleGeo, Mahalo и другие используют или перемещаются на Cassandra для основного хранилища данных (http://n2.nabble.com/Cassandra-users-survey-td4040068.html).

Технически: да; Помимо поддержки репликации (в том числе для нескольких центров обработки данных), каждый узел Cassandra имеет журнал фиксации fsync для обеспечения надежности записи; оттуда записи превращаются в SSTables, которые являются неизменяемыми до сжатия (который объединяет несколько SSTables в GC старых версий). Снимки поддерживаются в любое время, включая автоматическое создание снимков перед сжатием.

4 голосов
/ 20 сентября 2011

Использование Cassandra для вашего приложения или нет, зависит исключительно от ваших рабочих нагрузок. Cassandra оптимизирована для рабочих нагрузок с интенсивной записью, поэтому она подходит для приложений, в которые необходимо вставить большой объем данных (например, информацию о протоколировании инфраструктуры на Facebook).

Если, однако, вам требуется быстрый поиск и скорость вставки не является проблемой, то, возможно, вам стоит взглянуть, скажем, на HBase (который оптимизирован для нагрузок с интенсивным чтением).

...