uday reddy 18 июня 2020 4

Как получить распараллеленный вывод, когда я даю numslices = 2 или больше в pyspark

uday reddy / 18 июня 2020

Пример фрейма данных:

A   B                    C
c1  c1 input files path  c1 output path
c2  c2 input files path  c1 output path
c3  c3 input files path  c1 output path
c4  c4 input files path  c1 output path

Вот как я читаю этот фрейм данных:

df = spark_session.read.csv(example dataframe,header=True,sep='|')

sc.parallelize(path_dict.rdd.map(lambda x:myfunction(x['B'],x['C'])).collect(),numSlices=4)

Но я получаю последовательный вывод. Может ли кто-нибудь мне помочь?

...

Как получить распараллеленный вывод, когда я даю numslices = 2 или больше в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как получить распараллеленный вывод, когда я даю numslices = 2 или больше в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы