Кассандра для хранения документов - PullRequest
1 голос
/ 22 сентября 2011

В настоящее время я работаю над проектом, в котором нам необходимо ежегодно хранить 40 миллиардов документов (PDF, TIFF) для примерно 200 миллионов учетных записей, и мне было интересно, возможно ли использовать Cassandra для этого? это происходит главным образом из-за масштабируемости, стабильности и многократного использования центра обработки данных в дизайне Cassandra.

Но мне интересно, стоит ли вообще использовать Cassandra для этого - или другой вариант, например CouchDB, будет лучшим вариантом?

Просто примечание, нам не нужен полнотекстовый поиск в документах, и для каждого документа будет только ограниченное количество метаданных, связанных с каждым - например, дата, время, происхождение, владелец и уникальный идентификатор, а также несколько ключевых слов. , Доступ к документам, как правило, осуществляется посредством запроса идентификатора владельца и оттуда выбирается документ, необходимый по происхождению и, возможно, по дате / времени. Так что ничего особенного.

Спасибо за ваши мысли по этому поводу.

1 Ответ

1 голос
/ 22 сентября 2011

Всего несколько мыслей:

Возможно, вы захотите рассмотреть и распределенную файловую систему, такую ​​как HDFS.

40 миллиардов в год - это 1361 в секунду - Cassandra может справиться с такого рода нагрузкой при записи, предполагая, что документы имеют скромный размер и не все огромные многомегабайтные файлы.

Какую нагрузку чтения вы ожидаете?

Будут ли документы сохраняться вечно, то есть 40 миллиардов, добавляемых в год на неопределенное время?

Если документ размером 100 КБ (скажем), это 4 петабайта в год, я думаю? Я не слышал о таком большом кластере Кассандры - стоило бы спросить его в списке рассылки Кассандра (с некоторыми реалистичными цифрами, а не с моими догадками!).

Я слышал, что узел Cassandra обычно может управлять 1 ТБ при большой нагрузке, может быть, 10 ТБ при небольшой нагрузке. Так что это как минимум кластер из 400 узлов на первый год, возможно, гораздо больше, особенно если вам нужна репликация.

На этой странице приведены некоторые данные 2009 года о возможностях HDFS - 14 петабайт (60 миллионов файлов) с использованием 4000 узлов, а также множество других интересных деталей (например, имена узлов, требующих 60 ГБ ОЗУ).

...