Возможно ли хранить данные Cassandra в другой распределенной файловой системе, такой как MapR и hdfs? - PullRequest
1 голос
/ 28 апреля 2020

Я просто хотел узнать влияние хранения данных apache Cassandra на любую другую распределенную файловую систему.

Например - скажем, у меня кластер oop из 5 узлов и коэффициент репликации 3.

Аналогично для Кассандры у меня 5 узлов кластера с коэффициентом репликации 3 для всех пространств ключей. все данные будут храниться в папке hdfs с тем же путем монтирования.

Например, каталог данных Cassandra узла-0 - "/ data / user / cassandra-0 /"

Каталог каталогов Cassandra - "/ data / user / cassandra-0 / logs /

При такой архитектуре мне нужны комментарии по следующим пунктам:

  1. Как указано в документации datastax, каталог данных casaandra и каталог commitlog должны различаться, что невозможно в этом с конфигурацией по умолчанию размер журнала cassandra commitlog составляет 8192 МБ. Так что, насколько я понимаю, если у меня есть диск 1 ТБ и если диск заполнен или любая ошибка уровня диска остановит все кластеры cassandra ??

  2. Второй вопрос связан с базовым механизмом хранения. Если исходить из двух уровней распределения данных, указав коэффициент репликации 3 для hdfs и 3 для cassandra, то будут ли эти данные (sstables) храниться в 9 местах? Значительная потеря памяти, пожалуйста предложить на это ??

1 Ответ

1 голос
/ 28 апреля 2020

Cassandra не поддерживает готовое хранение данных в нелокальных файловых системах, таких как HDFS и т. Д. c. Вы можете теоретически взломать исходный код для поддержки этого, но это не имеет смысла - Cassandra сама выполняет репликацию и не нуждается в дополнительном слое файловой системы.

...