Почему Кассандра считывает с диска гораздо больше данных, чем требуется? - PullRequest
1 голос
/ 13 марта 2019

Мы запускаем Cassandra 3.0.16 на кластере экземпляров i3.2xl в AWS.Тома, в которых хранятся данные, шифруются с использованием Luks.Мы выполняем задание, которое должно прочитать 3 ТБ данных из двух таблиц, выполнив отдельные запросы для отдельных ключей записи.Если мы посмотрим метрики Cloudwatch IO для одного из экземпляров Cassandra, похоже, что Cassandra прочитает тысячи терабайт до завершения работы.Это приводит к тому, что продолжительность задания будет в 6 раз медленнее, чем ожидалось.

Мы полностью сжимали две считываемые таблицы, и это только помогло повысить производительность на 10%.Мы исключили шифрование, вызывающее медлительность, наблюдая такую ​​же медленную производительность в кластере, в котором не зашифрованы тома.

Существуют ли какие-либо параметры конфигурации Cassandra, которые можно настроить для уменьшения чрезмерного ввода-вывода?

...