Дисбаланс ЦП Cassandra в Azure - PullRequest
0 голосов
/ 15 января 2019

У нас есть кластер Cassandra с 30+ узлами (3.11.2) в 4 центрах обработки данных.Один из центров состоит из 8 узлов в Azure, работающих на стандартных узлах DS12 v2 (4 процессора, 28 ГБ) с жестким диском премиум-класса емкостью 500 ГБ.Все в одном и том же центре обработки данных (центральная часть США).

Мы наблюдаем резкий дисбаланс ЦП в активности узла при максимальном нажатии.У нас есть пространство ключей с примерно 200 миллионами записей, и мы запускаем процесс проверки и обновления записей, если необходимо, из другого потока данных.

Что происходит, у нас есть 4 узла, которые работают на 70-90% ЦП по сравнению с 15-25% от других 4. Измерение ЦП выполняется в самих узлах, поскольку собственные показатели Azure нарушены и никогда не отражают того, что происходит на самом деле.

Копание впара узлов (один низкий процессор и один высокий) разница составляет iowait% от двух.Данные в пространстве ключей сбалансированы (в пределах разумного - все они находятся в пределах 5% от другого по количеству и размеру записи).Похоже, что число операций чтения сбалансировано, и даже задержка чтения, как сообщает Cassandra, аналогична.

Когда я выполняю сравнение узлов iostat, узел с высоким ЦП сообщает о гораздо более высоком (на 50%).до 100%) числа в килобайтах / с ... что, вероятно, приводит к разнице в iowait% времени.

Эти узлы на 100% настроены одинаково, работают с одинаковой версией всего (ОС, библиотеки, все) что я могу думать посмотреть.Я не могу понять, почему некоторые узлы решают делать больше операций чтения с диска, чем другие, что приводит к замедлению работы кластера в целом.

У кого-нибудь есть предложения относительно того, где я могу искать различия?

Единственное, что является шаблоном, это медленные узлы - это 4 узла, которые были добавлены позже в нашем расширении.Мы начали с 4 узлов на некоторое время и добавили еще 4, когда нам нужно было место.Все соответствующие исправления и другие задачи, необходимые для добавления узлов, были выполнены - факт того, что записи и физический размер файлов данных на диске должны быть равными, должен это подтвердить.

Когда мы закрываем наш процесс обновления,все узлы располагаются на 5% или менее ЦП по всей плате.Никакого уплотнения или какого-либо другого обслуживания не происходит, что указывало бы на что-то другое.

plz help ...:)

1 Ответ

0 голосов
/ 30 января 2019

Наше окончательное решение для этого - исправить ТОЛЬКО несбалансированную проблему - очистку, полный ремонт и компактность.В этот момент узлы используются относительно одинаково.Мы подозреваем, что расширение кластера (добавление узлов) могло оставить элементы данных на более старых узлах, которые не были сжаты из-за регулярных событий сжатия.

Мы все еще работаем, чтобы попытаться решить проблему загрузки;но теперь, по крайней мере, все узлы испытывают одинаковую нагрузку на процессор.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...