Question

У меня есть особый столбец, в котором есть HTML-теги. Я хотел бы удалить все теги. Пример одной строки данных из столбца "body" выглядит следующим образом:

"<p>Are questions related to and similar products on-topic?</p>"

Я хотел бы, чтобы вывод после использования RegexTokenizer () был следующим:

"are questions related to and similar products on-topic?"

Здесьэто то, что я начал:

val regexTokenizer = new RegexTokenizer()
  .setInputCol("body")
  .setOutputCol("removedTags")
  .setPattern("")

Я думаю, что мне нужно исправить .setPattern (), но не знаю, как.

Emma · Answer 1 · 21 октября 2019

Предполагая, что у вас не может быть никаких других < или > в ваших строках, возможно,

<[^>]+>

, замененных пустой строкой, может работать в некоторой степени нормально, в противном случаеэто не удалось бы .

Если вы хотите упростить / изменить / изучить выражение, это было объяснено на верхней правой панели regex101.com . Если хотите, вы также можете посмотреть в эту ссылку , как она будет сопоставляться с некоторыми примерами ввода.

Как удалить теги с помощью RegexTokenizer () в Spark / Scala ML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как удалить теги с помощью RegexTokenizer () в Spark / Scala ML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов