У меня есть требование сохранять разделы в текстовый файл с разными именами для каждого раздела. Но при выполнении нижеприведенного фрагмента кода сохраняется только один файл путем перезаписи предыдущего раздела.
def chunks(iterator):
chunks.counter += 1
l = (list(iterator))
df = pd.DataFrame(l,index=None)
df.to_csv(parent_path+"C"+str(chunks.counter+1)+".txt", header=None, index=None, sep=' ')
chunks.counter=0
sc.parallelize([1,2,3,4,5,6],num_partions).foreachPartition(chunks)
Есть ли способ узнать, какой раздел в настоящее время работает в pySpark?