Мы используем Datastax Spark-Cassandra-Connector для записи в кластер Cassandra, развернутый в кластере, отличном от Spark.
Мы наблюдали массовую загрузку, т.е. ~ 500M записей, наши записи выполняются в течение (~ 1 часа), и производительность чтения снижается во время записи. Хотя производительность записи довольно хороша, это неприемлемо в нашей среде, так как некоторые запросы чтения являются критическими и всегда должны отвечать в определенные c временные рамки.
Я прочитал статью о SSL Table Пример использования загрузчика , который, похоже, решает ту же проблему с помощью SSLTableLoader ( CassandraBulkLoader ).
Я также прочитал несколько вопросов SO, например этот , в котором упоминается запись может быть очень медленной с SSLTableLoader по сравнению с spark-cassandra-connector.
Теперь, какова основная причина, которая делает spark-cassandra-connector быстрее, но вызывает низкую задержку чтения при массовой загрузке? Кроме того, есть ли у SSLTableLoader другие недостатки, кроме медленной?