У меня есть кластер кассандры с довольно небольшим количеством рядов (около 2 миллионов, что, я надеюсь, «мало» для кассандры). Каждая строка имеет уникальный UUID, и каждая строка имеет около 200 столбцов (несколько или несколько). В целом это довольно маленькие строки, без двоичных данных или большого количества текста. Просто короткие строки.
Я только что закончил начальный импорт в кластер кассандры из нашей старой базы данных. Я чертовски настроил Кассандру на каждой машине. Были сотни миллионов записей, но не чтения. Теперь, когда пришло время ИСПОЛЬЗОВАТЬ эту вещь, я обнаружил, что скорость чтения абсолютно мрачна. Я делаю multiget, используя pycassa в любом месте от 500 до 10000 строк одновременно. Даже при 500 строках производительность ужасная, иногда занимает более 30 секунд.
Что может вызвать такой тип поведения? Какие вещи вы бы порекомендовали после такого большого импорта? Спасибо.