У меня есть особый столбец, в котором есть HTML-теги. Я хотел бы удалить все теги. Пример одной строки данных из столбца "body" выглядит следующим образом:
"<p>Are questions related to and similar products on-topic?</p>"
Я хотел бы, чтобы вывод после использования RegexTokenizer () был следующим:
"are questions related to and similar products on-topic?"
Здесьэто то, что я начал:
val regexTokenizer = new RegexTokenizer()
.setInputCol("body")
.setOutputCol("removedTags")
.setPattern("")
Я думаю, что мне нужно исправить .setPattern (), но не знаю, как.