В нашей реализации алгоритма Eclat на Spark (Java) алгоритм дает правильный результат на одном узле.Но когда количество узлов увеличивается, алгоритм дает неверные результаты.
В частности, он дает разные результаты в этой строке:
JavaPairRDD<List<String>, List<Long>> reduced = rdd.reduceByKey((x,y)->Lists.newArrayList(Sets.intersection(Sets.newHashSet(x), Sets.newHashSet(y))));
Мы думали, что это связано с разбиением.В чем может быть причина, и как это можно исправить?Спасибо.