У меня есть Scala Spark DataFrame:
id, content
1, "<p>Some paragraph</p>"
2, "<p><li>Some listings</li></p>"
...
По сути, столбец «content» содержит текстовые данные в формате html, и я хотел бы удалить их.В настоящее время я использую UDF с использованием библиотеки Jsoup (не фактический код реализации, но вы поняли идею):
import org.jsoup.Jsoup
Jsoup.parse(content).text()
Он выполняет свою работу, но не работает, и я прочитал этот UDFработает медленно, есть ли способ применить функцию к столбцу, который оптимизирует параллелизм для получения результатов?
Идеальный результат:
id, clean_content
1, "Some paragraph"
2, "Some listings"
...