Использование JSoup для очистки Scala Spark DataFrame - PullRequest
0 голосов
/ 11 февраля 2019

У меня есть Scala Spark DataFrame:

id, content
1, "<p>Some paragraph</p>"
2, "<p><li>Some listings</li></p>"
...

По сути, столбец «content» содержит текстовые данные в формате html, и я хотел бы удалить их.В настоящее время я использую UDF с использованием библиотеки Jsoup (не фактический код реализации, но вы поняли идею):

import org.jsoup.Jsoup
Jsoup.parse(content).text()

Он выполняет свою работу, но не работает, и я прочитал этот UDFработает медленно, есть ли способ применить функцию к столбцу, который оптимизирует параллелизм для получения результатов?

Идеальный результат:

id, clean_content
1, "Some paragraph"
2, "Some listings"
...
...