Question

У меня есть Scala Spark DataFrame:

id, content
1, "<p>Some paragraph</p>"
2, "<p><li>Some listings</li></p>"
...

По сути, столбец «content» содержит текстовые данные в формате html, и я хотел бы удалить их.В настоящее время я использую UDF с использованием библиотеки Jsoup (не фактический код реализации, но вы поняли идею):

import org.jsoup.Jsoup
Jsoup.parse(content).text()

Он выполняет свою работу, но не работает, и я прочитал этот UDFработает медленно, есть ли способ применить функцию к столбцу, который оптимизирует параллелизм для получения результатов?

Идеальный результат:

id, clean_content
1, "Some paragraph"
2, "Some listings"
...

Использование JSoup для очистки Scala Spark DataFrame

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Использование JSoup для очистки Scala Spark DataFrame

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы