Я пытаюсь вычеркнуть синонимы из базы данных Тезауруса Национального института рака, однако у меня возникли некоторые проблемы с поиском правильного html, на который можно указать. Ниже мой код и фрейм данных, которые я использую. Когда я запускаю свой сценарий для извлечения синонимов, я получаю Error in open.connection(x, "rb") : HTTP error 404.
. Я не могу понять, какой должна быть правильная ссылка html и как ее найти.
library(xml2)
library(rvest)
library(dplyr)
library(tidyverse)
synonyms<-read_csv("terms.csv")
##list of acronyms
words <- c(synonyms$Keyword)
##Designate html like and the values to search
htmls <- paste0("https://ncit.nci.nih.gov/ncitbrowser/pages/concept_details.jsf/", words)
Data<-data.frame(Pages=c(htmls))
results<-sapply(Data$Pages, function(url){
try(
url %>%
as.character() %>%
read_html() %>%
html_nodes('p') %>%
html_text()
)
})