Альтернатива xml2 read_html - PullRequest
0 голосов
/ 01 июня 2019

При использовании функции read_html в xml2 я обнаружил, что не могу использовать параллельные вычисления для чтения нескольких URL-адресов. Я также заметил, что я не могу перебирать read_html внутри функции более 20 итераций с моими данными. Я создал проблему на xml2 github здесь без ответа.

Есть ли какая-либо альтернатива нижеприведенной, которая может повторяться более 20 раз / вычисляться параллельно?

ctnt <- httr::GET("https://www.sec.gov/Archives/edgar/data/789019/000119312515020351/Financial_Report.xls") %>% 
 content("text", encoding="UTF8") 
tbls <- XML::readHTMLTable(ctnt, stringsAsFactors = FALSE)   
tbls <- tbls[names(tbls)!="NULL"]
names(tbls) <- xml2::read_html(gsub("<!--[if gte mso 9]>", "", ctnt, 
 fixed=TRUE)) %>%
 xml2::xml_find_all(".//name") %>%
 xml2::xml_text()
...