У нас есть кластер Cassandra с 30+ узлами (3.11.2) в 4 центрах обработки данных.Один из центров состоит из 8 узлов в Azure, работающих на стандартных узлах DS12 v2 (4 процессора, 28 ГБ) с жестким диском премиум-класса емкостью 500 ГБ.Все в одном и том же центре обработки данных (центральная часть США).
Мы наблюдаем резкий дисбаланс ЦП в активности узла при максимальном нажатии.У нас есть пространство ключей с примерно 200 миллионами записей, и мы запускаем процесс проверки и обновления записей, если необходимо, из другого потока данных.
Что происходит, у нас есть 4 узла, которые работают на 70-90% ЦП по сравнению с 15-25% от других 4. Измерение ЦП выполняется в самих узлах, поскольку собственные показатели Azure нарушены и никогда не отражают того, что происходит на самом деле.
Копание впара узлов (один низкий процессор и один высокий) разница составляет iowait% от двух.Данные в пространстве ключей сбалансированы (в пределах разумного - все они находятся в пределах 5% от другого по количеству и размеру записи).Похоже, что число операций чтения сбалансировано, и даже задержка чтения, как сообщает Cassandra, аналогична.
Когда я выполняю сравнение узлов iostat, узел с высоким ЦП сообщает о гораздо более высоком (на 50%).до 100%) числа в килобайтах / с ... что, вероятно, приводит к разнице в iowait% времени.
Эти узлы на 100% настроены одинаково, работают с одинаковой версией всего (ОС, библиотеки, все) что я могу думать посмотреть.Я не могу понять, почему некоторые узлы решают делать больше операций чтения с диска, чем другие, что приводит к замедлению работы кластера в целом.
У кого-нибудь есть предложения относительно того, где я могу искать различия?
Единственное, что является шаблоном, это медленные узлы - это 4 узла, которые были добавлены позже в нашем расширении.Мы начали с 4 узлов на некоторое время и добавили еще 4, когда нам нужно было место.Все соответствующие исправления и другие задачи, необходимые для добавления узлов, были выполнены - факт того, что записи и физический размер файлов данных на диске должны быть равными, должен это подтвердить.
Когда мы закрываем наш процесс обновления,все узлы располагаются на 5% или менее ЦП по всей плате.Никакого уплотнения или какого-либо другого обслуживания не происходит, что указывало бы на что-то другое.
plz help ...:)