Я новичок в pyspark, и у меня возникают проблемы с преобразованием функций python в pyspark udf.
У меня есть df, как показано ниже
+--------------------+
| summary|
+--------------------+
|<p>test test </p> |
|<a>test test </a> |
|<p>test test </p> |
+--------------------+
Я хотел очистить HTML-теги в summary
. Я создал udf как показано ниже
import re
clean_html = udf(lambda raw: re.sub(re.compile('<.*?>'), '', raw))
df.withColumn('clean', clean_html(df.summary))
но появляется следующая ошибка при запуске:
TypeError: Invalid argument, not a string or column
Какой правильный способ сделать это?