Перемещение данных из многоузлового кластера Cassandra в один узел - PullRequest
2 голосов
/ 12 июля 2011

В настоящее время у меня есть скрипт, который вызывает bin/sstable2json для всех файлов шаблона /var/lib/cassandra/data/fake-keyspace/*-Data.db и сохраняет выходные данные из std out на диск. Однако экспортированные файлы начинают занимать 10-кратное пространство всех файлов в /var/lib/cassandra

Я выбрал этот подход после прочтения следующего раздела http://wiki.apache.org/cassandra/Operations#Import_.2BAC8_export

Каковы некоторые из лучших практик для передачи данных из одного кластера в другой? Просто чтобы прояснить, я не пытаюсь добавлять дополнительные узлы в кольцо, а скорее перемещаю данные из одного кольца в другое в процессе, который повторяется.

Любая помощь или толчок в правильном направлении будет принята с благодарностью.

1 Ответ

2 голосов
/ 12 июля 2011

Просто скопируйте файлы sstable. Единственная причина использовать json - для (1) отладки или (2) вы хотите выполнить какую-то обработку в форме json перед повторной загрузкой.

Итак, просто переименуйте все sstable файлы (из снимка, если вы работаете вживую в первом кластере) в уникальные числа (порядок не имеет значения, если они уникальны) и скопируйте их все в каталог данных на целевом компьютере.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...