Как проверить, чтобы Кассандра равномерно распределяла данные по кластеру? - PullRequest
0 голосов
/ 29 октября 2018

Я новичок в Кассандре, я создаю Cluseter со следующей спецификацией.

Как сделать так, чтобы Кассандра равномерно распределяла данные по кластеру?

node count: 4
replication_factor: 3

схема таблицы:

CREATE TABLE space.user (
    id uuid PRIMARY KEY,
    firstname text,
    lastname text
) WITH bloom_filter_fp_chance = 0.01
    AND caching = {'keys': 'ALL', 'rows_per_partition': 'NONE'}
    AND comment = ''
    AND compaction = {'class': 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy', 'max_threshold': '32', 'min_threshold': '4'}
    AND compression = {'chunk_length_in_kb': '64', 'class': 'org.apache.cassandra.io.compress.LZ4Compressor'}
    AND crc_check_chance = 1.0
    AND dclocal_read_repair_chance = 0.1
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND memtable_flush_period_in_ms = 0
    AND min_index_interval = 128
    AND read_repair_chance = 0.0
    AND speculative_retry = '99PERCENTILE';

1 Ответ

0 голосов
/ 29 октября 2018

Самый простой способ - использовать nodetool status - вы можете проверить , сколько отображается в столбце Load - это объем данных на диске, хотя он может также подсчитывать данные, которые не ' t очищено (если вы изменили топологию, вам может потребоваться запустить nodetool cleanup, чтобы удалить эти данные).

По сути, у вас не должно быть очень больших различий между узлами, но это зависит от числа, которое вы указали как num_tokens. Если у вас есть 8 токенов на сервер, тогда разница может составлять + -10-12% от среднего размера. Для большего количества токенов разница может быть меньше.

Но в вашем случае я думаю, что разница между узлами не будет очень большой, потому что у вас очень маленькие строки, а имя / фамилия должны быть очень большими.

...