Я просто хотел узнать влияние хранения данных apache Cassandra на любую другую распределенную файловую систему.
Например - скажем, у меня кластер oop из 5 узлов и коэффициент репликации 3.
Аналогично для Кассандры у меня 5 узлов кластера с коэффициентом репликации 3 для всех пространств ключей. все данные будут храниться в папке hdfs с тем же путем монтирования.
Например, каталог данных Cassandra узла-0 - "/ data / user / cassandra-0 /"
Каталог каталогов Cassandra - "/ data / user / cassandra-0 / logs /
При такой архитектуре мне нужны комментарии по следующим пунктам:
Как указано в документации datastax, каталог данных casaandra и каталог commitlog должны различаться, что невозможно в этом с конфигурацией по умолчанию размер журнала cassandra commitlog составляет 8192 МБ. Так что, насколько я понимаю, если у меня есть диск 1 ТБ и если диск заполнен или любая ошибка уровня диска остановит все кластеры cassandra ??
Второй вопрос связан с базовым механизмом хранения. Если исходить из двух уровней распределения данных, указав коэффициент репликации 3 для hdfs и 3 для cassandra, то будут ли эти данные (sstables) храниться в 9 местах? Значительная потеря памяти, пожалуйста предложить на это ??