найти ссылку из вложенной ссылки в R - PullRequest
0 голосов
/ 14 апреля 2020

Я изучаю анализ текста с использованием R. Я пытаюсь найти все ссылки в документе HTML.

Я пробовал getHTMLLinks (), но он показывает следующую ошибку:

url = "https://elections.maryland.gov/elections/2012/election_data/index.html"
getHTMLLinks(url)

character(0)
Warning message:
XML content does not seem to be XML: 'https://elections.maryland.gov/elections/2012/election_data/index.html' 

поэтому мне надоел пакет "rvest", чтобы найти ссылки. Код выглядит следующим образом:

links = xml2::read_html(url) %>% #read html link
  html_nodes("a") %>% #select a node
  html_attr("href") %>% #from a node select all href (hyperlink) tags
  .[grep("general.csv",.,ignore.case = T)]

Он дает все ссылки в векторном формате.

head(links)

"State_Congressional_Districts_2012_General.csv" "State_Legislative_Districts_2012_General.csv"  
[3] "All_By_Precinct_2012_General.csv"               "Allegany_County_2012_General.csv"              
[5] "Allegany_By_Precinct_2012_General.csv"          "Anne_Arundel_County_2012_General.csv" 

Все эти ссылки являются просто именами, перечисленными в теге href . Но на самом деле это все гиперссылки на таблицу.

Было бы здорово, если бы кто-нибудь мог мне помочь, как я могу извлечь окончательные ссылки вместо названий этих гиперссылок?

...