Spark дает разные результаты при изменении количества узлов - PullRequest
0 голосов
/ 22 мая 2018

В нашей реализации алгоритма Eclat на Spark (Java) алгоритм дает правильный результат на одном узле.Но когда количество узлов увеличивается, алгоритм дает неверные результаты.

В частности, он дает разные результаты в этой строке:

JavaPairRDD<List<String>, List<Long>> reduced = rdd.reduceByKey((x,y)->Lists.newArrayList(Sets.intersection(Sets.newHashSet(x), Sets.newHashSet(y))));    

Мы думали, что это связано с разбиением.В чем может быть причина, и как это можно исправить?Спасибо.

...