Вы можете попробовать сделать regexp_replace () :
from pyspark.sql.functions import regexp_replace
df = df.withColumn("parsed_descn", regexp_replace("descn", "<[^>]+>", ""))
Регулярное выражение не идеально и может потерпеть неудачу. Пожалуйста, сделайте еще несколько исследований, чтобы сделать это лучше.
Это сработало на вашем примере строки, когда я попробовал его на regexr
Вот скриншот:
Выход Pyspark:
df.withColumn("parsed", F.regexp_replace("descn", "<[^>]+>", "")).select("parsed").collect()
[Row(parsed='PROTEUSÂ We are struggling with pathology. We don't control specimens of prostatectomy. The hospital pathology is not cooperating. I am reaching out to another hospital. You have pretty intense manual guidelines on pathology in the [PROTEUS] protocol for managing of RP [specimens]. Please e-mail me with work around options.')]