Разъем Spark Cassandra, всплеск ЦП при прямом соединении - PullRequest
0 голосов
/ 03 августа 2020

Мой кластер cassandra с 3 узлами, который я могу писать, когда ЦП в основном находится в диапазоне 10-15%. 30 K может увеличиться еще больше в будущем) и сделать какие-то агрегаты. Поскольку у меня есть информация о ключах разделов, я использую DirectJoin в cassandra

Однако, когда я запускаю свое искровое приложение, которое завершается за 3-4 минуты.

  • Когда я запускаю свой искровой кластер на cassandra DB CPU касается 100% в течение 3-4 минут
  • Когда я запускаю из одноядерного экземпляра искры (не на машине DB) CPU касается 75%

Я читаю только 2 columns (int, String) Примерно 1440 записей на раздел.

Насколько я понимаю, поскольку мы читаем по ключу раздела, это не должно приводить к тому, что такой план High CPU Explain подтверждает, что прямое соединение происходит

Какие у меня есть варианты, чтобы избежать высокой загрузки ЦП и читать данные в быстром темпе?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...