Я написал код pyspark, выполняя следующую операцию, но он не работает должным образом. Кто-нибудь может указать на мою ошибку, пожалуйста
# Data cleaning function
def clean_data(data):
rep = data.replace('/','')
rep = data.replace('-','')
rep = data.replace('+','')
rep = data.replace(' ','')
return rep
#clean_data_udf_int = udf(lambda z: clean_data(z), StringType())
#con.show(4)
clean_data_udf = udf(clean_data, StringType())
con = con.withColumn('ph1_f',clean_data_udf('phone1'))
Входной кадр данных соответствует:
id phone phone1
1 098 /90
2 + 91 -90
Вывод я хочу, чтобы датафрейм был:
id phone phone1
1 98 90
2 91 90