Удалить теги HTML из текстовой строки и сохранить текст - PullRequest
0 голосов
/ 17 января 2019

У меня есть текстовая строка, подобная приведенной ниже: -

^style>           
  p,span,li{font-family:Arial;font-size:10.5pt;}        
^/style>  
^p>
  ^img src="https://app.keysurvey.com/" alt="image" width="462" />
^/p>  
^p>
  Dear Adam,
^/p>  
^p>
  Thank you for your query, the Reference ID for your query is 
  ^strong>^u> 28600 ^/u>^/strong>
  .  We will respond to you within the next 1-2 business days.
^/p>  
^p>For further correspondence with us, kindly reply by maintaining the 
   Reference ID number of this case in the subject line of your e-mail.
^/p>  
^p>
  Regards
^/p>

Моя цель - очистить все HTML-теги и другие ненужные значения и вернуть текст, подобный этому:

Выход: -

Дорогой Адам,

Спасибо за ваш запрос. Идентификационный номер для вашего запроса: Мы будем ответим вам в течение следующих 1-2 рабочих дней. Для дальнейшего переписка с нами, пожалуйста, ответ, поддерживая идентификационный номер номер этого дела в теме вашего электронного письма. Regards,

Я пытался tm.plugin.webmining, extractHTMLStrip, однако он не мог очистить ненужные значения

library(tm.plugin.webmining)
df$text1 <- extractHTMLStrip(df$text)

1 Ответ

0 голосов
/ 17 января 2019

Если в вашей строке повреждено меньше знаков, вы можете сделать это с помощью регулярных выражений.

yourstring <- '^style> p,span,li{ font-family:Arial; font-size:10.5pt; } ^/style> ^p>^img src="https://app.keysurvey.com/" alt="image" width="462" />^/p> ^p>Dear Adam,^/p> ^p>Thank you for your query, the Reference ID for your query is ^strong>^u> 28600 ^/u>^/strong>.  We will respond to you within the next 1-2 business days.^/p> ^p>For further correspondence with us, kindly reply by maintaining the Reference ID number of this case in the subject line of your e-mail.^/p> ^p>Regards'
# reproducible example of your string

yourstring <- gsub("\\^.*?>", "", yourstring)
yourstring <- gsub("p,span.*?}", "", yourstring)
yourstring <- trimws(yourstring)

это даст вам:

> yourstring
[1] "Dear Adam, Thank you for your query, the Reference ID for your query is  28600 .  We will respond to you within the next 1-2 business days. For further correspondence with us, kindly reply by maintaining the Reference ID number of this case in the subject line of your e-mail. Regards"

Чтобы сделать ее более элегантной, выможно использовать библиотеки stringr и magrittr.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...