Важно не столько количество твитов, сколько скорость их поступления. Cassandra может легко обрабатывать тысячи записей в секунду, что должно быть хорошо (в настоящее время Twitter генерирует около 1200 твитов в секунду, и вы, вероятно, получите лишь небольшую их часть).
Однако количество твитов в секунду сильно варьируется. После сильного всплеска записей вы можете заметить некоторое замедление в запросах диапазона. См. Сообщения в блоге Acunu на Cassandra в разделе интенсивной записи, часть i и part ii , где можно найти обсуждение проблемы и способы ее решения.
Помимо хранения необработанного json, я бы выделил некоторые общие функции, которые вам почти наверняка понадобятся, такие как идентификатор пользователя и хэштеги, а также сохраню их отдельно. Это сэкономит вам много времени на обработку.
Другим фактором, который необходимо учитывать, является планирование того, как хранимые данные будут расти со временем. Cassandra может очень хорошо масштабироваться, но у вас должна быть стратегия, позволяющая поддерживать балансировку нагрузки в кластере и добавлять узлы по мере роста базы данных. Добавление узлов может быть болезненным, если вы заранее не планировали, как распределять токены новым узлам. Ожидание, пока у вас не будет перегруженного узла, прежде чем добавлять новый, является хорошим способом заставить ваш кластер рухнуть.