Всего несколько мыслей:
Возможно, вы захотите рассмотреть и распределенную файловую систему, такую как HDFS.
40 миллиардов в год - это 1361 в секунду - Cassandra может справиться с такого рода нагрузкой при записи, предполагая, что документы имеют скромный размер и не все огромные многомегабайтные файлы.
Какую нагрузку чтения вы ожидаете?
Будут ли документы сохраняться вечно, то есть 40 миллиардов, добавляемых в год на неопределенное время?
Если документ размером 100 КБ (скажем), это 4 петабайта в год, я думаю? Я не слышал о таком большом кластере Кассандры - стоило бы спросить его в списке рассылки Кассандра (с некоторыми реалистичными цифрами, а не с моими догадками!).
Я слышал, что узел Cassandra обычно может управлять 1 ТБ при большой нагрузке, может быть, 10 ТБ при небольшой нагрузке. Так что это как минимум кластер из 400 узлов на первый год, возможно, гораздо больше, особенно если вам нужна репликация.
На этой странице приведены некоторые данные 2009 года о возможностях HDFS - 14 петабайт (60 миллионов файлов) с использованием 4000 узлов, а также множество других интересных деталей (например, имена узлов, требующих 60 ГБ ОЗУ).