У меня есть кластер DataProc с одним мастером и 4 работниками.У меня есть это искровое задание:
JavaRDD<Signal> rdd_data = javaSparkContext.parallelize(my_data, 8);
rdd_data.foreachPartition(partitionOfRecords -> {
println("Items in partition-" + partitionOfRecords.count(y=>true));
})
Где my_data - это массив с около 1000 элементов.Задание в кластере запускается правильно и возвращает правильные данные, но выполняется только на главном сервере, а не на рабочих.Я использую dataproc image 1.4 для каждой машины в кластере
Кто-нибудь может помочь мне понять, почему это задание выполняется только на master?