Как удалить теги с помощью RegexTokenizer () в Spark / Scala ML? - PullRequest
0 голосов
/ 21 октября 2019

У меня есть особый столбец, в котором есть HTML-теги. Я хотел бы удалить все теги. Пример одной строки данных из столбца "body" выглядит следующим образом:

"<p>Are questions related to and similar products on-topic?</p>"

Я хотел бы, чтобы вывод после использования RegexTokenizer () был следующим:

"are questions related to and similar products on-topic?"

Здесьэто то, что я начал:

val regexTokenizer = new RegexTokenizer()
  .setInputCol("body")
  .setOutputCol("removedTags")
  .setPattern("")

Я думаю, что мне нужно исправить .setPattern (), но не знаю, как.

1 Ответ

1 голос
/ 21 октября 2019

Предполагая, что у вас не может быть никаких других < или > в ваших строках, возможно,

<[^>]+>

, замененных пустой строкой, может работать в некоторой степени нормально, в противном случаеэто не удалось бы .


Если вы хотите упростить / изменить / изучить выражение, это было объяснено на верхней правой панели regex101.com . Если хотите, вы также можете посмотреть в эту ссылку , как она будет сопоставляться с некоторыми примерами ввода.


Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...