Как мне создать и добавить CSV-файл из результата rdd, используя pyspark
Это мой код.Для каждой итерации мне нужно добавить результат в csv
for line in tcp.collect():
#print value in MyCol1 for each row
print line
v3=np.array(data.select(line).collect())
x = v3[np.logical_not(np.isnan(v3))]
notnan_cnt=data.filter((data[line] != "").count
print(x)
cnt_null=data.filter((data[line] == "") | data[line].isNull() | isnan(data[line])).count()
print(cnt_null,notnan_cnt)
res_df=line,x.min(),np.percentile(x, 25),np.mean(x),np.std(x),np.percentile(x, 75),x.max(),cnt_null
print(res_df)
with open(data_output_file) as fp:
wr = csv.writer(fp, dialect='excel')
wr.writerow(res_df)
пример результата для rdd: res_df
['var_id', 10000001, 14003088.0, 14228946.912793402, 1874168.857698741, 15017976.0, 18000192, 0]
Это дает мне ошибку типа "typeError: приведение к Unicode: нужна строкаили буфер, RDD найден ".Не могли бы вы помочь