Pyspark параллельные вычисления_FPgrowth - PullRequest
0 голосов
/ 11 октября 2018

Я использую FPgrowth.train FROM pyspark.mllib.fpm для решения проблемы правил ассоциации и хотел бы сократить время обучения этого кода, используя преимущества параллельных вычислений в Spark.

itemsets= [["a", "b", "c"], ["a", "b", "d", "e"], ["a", "c", "e"],["a", "c", "f"]]
Data_rdd = sc.parallelize(itemsets, rdd_numPartitions) 
model = FPGrowth.train(Data_rdd, inSupport=min_supp,numPartitions=numPartitions)

Пока что изменение rdd_numPartitions на самом деле не повлияло на время обучения вышеприведенного кода или на numPartitions.

Я не уверен, нужно ли мне что-то делать раньше илиесли я что-то упустил.

Спасибо

...