У меня проблема с хранением 50 Гб журналов каждый день в распределенной среде. Я посмотрел на Hadoop HDFS, но из-за проблем с инфраструктурой Windows, из-за отсутствия мультиязычного API файловой системы он мне не очень подходит. Cassandra, с другой стороны, очень легко развернуть на любой платформе. Единственная большая проблема, с которой я сталкиваюсь - это использование дискового пространства. Вот цифры:
- Оригинальный размер журнала - 224 МБ
- Файл данных Cassandra - 557Mb
- Файл индекса Кассандры - 109 МБ
Таким образом, я получил почти вдвое больше издержек при хранении строк журнала из файла журнала.
Можно ли каким-то образом настроить Cassandra, чтобы он не занимал так много места на диске для очень простых сценариев?