Я могу показать вам пример.Вы можете использовать rdocumentation , чтобы найти нужную страницу ?help
, а затем использовать rvest
для очистки ее содержимого.
Например, представьте, что мы хотели бы очистить эту страницу page и получите фразу " Создает гистограмму с вертикальными или горизонтальными полосами ".
library(tidyverse)
library(rvest)
url <- "https://www.rdocumentation.org/packages/graphics/versions/3.5.1/topics/barplot"
webpage <- read_html(url)
webpage %>%
html_nodes("div.container") %>% # <div class="container">
html_node("section") %>% # <section>
"[["(2) %>%
html_nodes("p") %>%
"["(2) %>%
html_text() %>%
str_trim() %>%
unlist()
# gives:
[1] "Creates a bar plot with vertical or horizontal bars."
Важно использовать функцию html_nodes
, и вам нужно немного разбираться в html
.
Если вы просматриваете страницу в браузере (щелкните правой кнопкой мыши / просмотрите), вы получите доступ к его html
коду.Тогда вы сможете найти то, что вам нужно очистить, взглянув на tags
.
. В моем примере это теги div class="container"
, section
, а второй p
.
.
Здесь справочник по rvest .