Как работает repartitionByCassandraReplica, если Spark и cassandra не размещены совместно - PullRequest
0 голосов
/ 06 июня 2019

У меня есть кластер, на котором запущены Spark v1.6.1 и Cassandra V2.2.5, расположенные на каждом узле кластера. Когда я добавляю дополнительные узлы только с запущенным процессом cassandra (процесс spark-worker остановлен), я не вижу никаких ошибок или какого-либо влияния на существующие узлы, на которых выполняются процессы как cassandra, так и spark. Я ожидал, что в работе произойдет ошибка, так как в этом случае местоположение данных больше не применимо.

Я делаю следующее преобразование на DStream; stream.repartitionByCassandraReplica(keyspace.value, tableName, numberOfPartitions)

Я не могу понять, почему работа работает нормально. Я чего-то не понимаю?

...