Идеальная стратегия для максимальной пропускной способности записи RDD в Кассандре - PullRequest
3 голосов
/ 28 марта 2019

У меня есть кластер с 3 узлами на том же DC и той же стойке.У Keyspace есть Replication Factor с 2, у меня есть искровое приложение, которое принимает данные из Kafka, и теперь я сохраняю RDD на Cassandra с

rdd.saveToCassandra("db_name", "table_name")

Я потребляю с интервалом времени 10 секунд и каждыйпартия будет иметь 10 тыс. записей, а размер каждой партии составляет около 2,5 МБ

В Spark Conf у меня есть настройка

.set("spark.cassandra.output.consistency.level", "ONE")

Для вставки приложения требуется около 2-3 секунд.Почему так?Я хотел бы оптимизировать.Ранее, когда я использовал 1-узловую машину с RF-1, я мог вставлять со скоростью 0,8-1 секунды / партия.Итак, почему такая большая задержка после увеличения узла и RF.

Есть ли какие-либо другие настройки, которые мне нужно сделать в Spark Conf или на стороне cassandra, чтобы увеличить скорость записи.

...