Spark не назначает задачи тому, кто находится в списке конечных точек - PullRequest
0 голосов
/ 20 сентября 2018

Я использую Spark для подключения к Кассандре.Входные разбиения:

Input split: ColumnFamilySplit((3030, '3031] @[cherry02, cherry00]) Input split: ColumnFamilySplit((3031, '3032] @[cherry00, cherry01]) Input split: ColumnFamilySplit((3032, '] @[cherry01, cherry02]) Input split: ColumnFamilySplit((, '3030] @[cherry01, cherry02])

Строки между "[" и "]" являются именами хостов конечных точек.Они соответствуют кольцам узлов Кассандры.

Однако я обнаружил, что все эти входные разбиения отправляются на cherry02.Но очевидно, что второй сплит должен быть на высшем уровне cherry00 или cherry01.

Как это могло быть?Спасибо за вашу помощь.

Кстати, я использую Spark spark-2.0.0-bin-hadoop2.7 и Cassandra 2.1.9.

...