Я изучаю анализ текста с использованием R. Я пытаюсь найти все ссылки в документе HTML.
Я пробовал getHTMLLinks (), но он показывает следующую ошибку:
url = "https://elections.maryland.gov/elections/2012/election_data/index.html"
getHTMLLinks(url)
character(0)
Warning message:
XML content does not seem to be XML: 'https://elections.maryland.gov/elections/2012/election_data/index.html'
поэтому мне надоел пакет "rvest", чтобы найти ссылки. Код выглядит следующим образом:
links = xml2::read_html(url) %>% #read html link
html_nodes("a") %>% #select a node
html_attr("href") %>% #from a node select all href (hyperlink) tags
.[grep("general.csv",.,ignore.case = T)]
Он дает все ссылки в векторном формате.
head(links)
"State_Congressional_Districts_2012_General.csv" "State_Legislative_Districts_2012_General.csv"
[3] "All_By_Precinct_2012_General.csv" "Allegany_County_2012_General.csv"
[5] "Allegany_By_Precinct_2012_General.csv" "Anne_Arundel_County_2012_General.csv"
Все эти ссылки являются просто именами, перечисленными в теге href . Но на самом деле это все гиперссылки на таблицу.
Было бы здорово, если бы кто-нибудь мог мне помочь, как я могу извлечь окончательные ссылки вместо названий этих гиперссылок?