Webscraping в R с датафрейма - PullRequest
       6

Webscraping в R с датафрейма

0 голосов
/ 27 января 2020

Из следующего фрейма данных

enter image description here

Я пытаюсь использовать пакет rvest для очистки каждого слова Часть речи и синонимов с сайта: https://www.thesaurus.com/browse/research?s=t в CSV.

Я не уверен, как заставить R искать каждое слово во фрейме данных и извлекать его часть речи и синоним.

install.packages("rvest") install.packages("xml2") library(xml2) library(rvest) library(dplyr) words<data.frame("keywords"=c("research","survey","staff","outpatient","consent")) html<- read_html("https://www.merriam-webster.com/thesaurus/research") html %>% html_nodes(".mw-list") %>% html_text () %>% head(n=1) # take the first 1st records

1 Ответ

1 голос
/ 28 января 2020

Если вы будете искать [ваш термин] в тезаурусе, вы попадете на следующую страницу HTML: "https://www.thesaurus.com/browse/ [ваш термин]". Если вы это знаете, вы можете получить HTML-коды всех страниц терминов, которые вас интересуют. После этого вы сможете выполнять итерации с помощью функции map() из пакета purrr, чтобы получить необходимую информацию:


# It makes more sense to just keep "words" as a vector for now

words <- c("research","survey","staff","outpatient","consent")
htmls <- paste0("https://www.thesaurus.com/browse/", words)

info_list <- map(htmls, .x %>%
                          read_html() %>%
                          html_node(.mw-list) %>%
                          html_text())

...