Как получить распараллеленный вывод, когда я даю numslices = 2 или больше в pyspark - PullRequest
0 голосов
/ 18 июня 2020

Пример фрейма данных:

A   B                    C
c1  c1 input files path  c1 output path
c2  c2 input files path  c1 output path
c3  c3 input files path  c1 output path
c4  c4 input files path  c1 output path

Вот как я читаю этот фрейм данных:

df = spark_session.read.csv(example dataframe,header=True,sep='|')

sc.parallelize(path_dict.rdd.map(lambda x:myfunction(x['B'],x['C'])).collect(),numSlices=4)

Но я получаю последовательный вывод. Может ли кто-нибудь мне помочь?

...