Я изучаю stringr и textclean, R. Я хочу удалить имена в куче писем. Я нахожу что-то, что действительно смущает меня:
a <- 'a<b>Jone Smith<br></b>afef</div>'
Если я непосредственно сделаю это:
> replace_names(a,replacement = '')
[1] "a<b>Jone Smith<br>< / b>afef< / div>"
Вы видите, что имена не могут быть удалены. Я думаю, это потому, что >
и <
находятся рядом с именами, поэтому имена не могут быть идентифицированы. В то же время некоторые странные пробелы встречаются в </b>
и </div>
.
Итак, вот мой способ разобраться:
a <- 'a<b>Jone Smith<br></b>afef</div>'
a <- str_replace_all(string = a,pattern = '>',replacement = '> ')
a <- str_replace_all(string = a,pattern = '<',replacement = ' <')
a
replace_names(a,replacement = '')
Я хочу добавить пробел перед <и найти <, чтобы разделить имена. Но результат: </p>
> a
[1] "a <b> Jone Smith <br> </b> afef </div> "
> replace_names(a,replacement = '')
[1] "a <b> <br> < / b> afef < / div>"
Вы можете видеть, что означает, что пробелы добавлены успешно. Но после replace_names в </b>
и </div>
снова добавляется больше пробелов. Почему это так и как я могу это исправить?