У меня есть сценарий в PySpark, где я должен сделать некоторые вычисления на фрейме данных pandas на рабочем уровне.Ниже приведен фрагмент кода
def func1(x):
res_list = []
for i in x:
if i
res_list.append(i)
pandasdf = pd.DataFrame(res_list,columns=sch)
<computation>
<save pandasdf to HDFS>
df = spark.read.csv('/path/')
sch = df.schema.names
rdd = df.rdd.repartition(5)
rdd.foreachPartition(func1)
Я запускаю это в режиме кластера.Я хочу сохранить этот фрейм данных Pandas в HDFS, я пытался преобразовать фрейм данных Pandas в фрейм данных spark, но в рабочем узле невозможно конвертировать в фрейм данных spark.Может кто-нибудь помочь мне, как сохранить этот пандас данных в сторону функции в HDFS