R {xml_node} для простого текста при сохранении тегов? - PullRequest
0 голосов
/ 14 сентября 2018

Я хотел бы сделать именно то, что делают xml2::xml_text() или rvest::html_text(), но сохранить теги вместо замены, например, <br> на \n.Цель состоит в том, чтобы, например, очистить веб-страницу, извлечь нужные мне узлы и сохранить обычный HTML-код в переменной, подобно тому, как write_html() сохранит его в файле.

Как я могу это сделать?

1 Ответ

0 голосов
/ 15 сентября 2018

Как ни странно, получается, что as.character() работает просто отлично.

Таким образом:

library(rvest)
html <- read_html("http://stackoverflow.com")

res <– html %>%
         html_node("h1") %>%
         as.character()

> res

[1] "<h1 class=\"-title\">Learn, Share, Build</h1>"

Это желаемый вывод в моем текущем случае использования.

С другой стороны, для сравнения, если нужно убрать теги:

res <- html %>%
         html_node("h1") %>%
         html_text()

> res
[1] "Learn, Share, Build"
...