Чтение xml данных с помощью rvest - PullRequest
0 голосов
/ 29 мая 2020

Я пытаюсь прочитать xml данные по следующей ссылке:

https://www.sec.gov/Archives/edgar/data/1026081/000092189520001626/infotable.xml

Я использую пакет rvest и делаю это

library(rvest)
url <- "https://www.sec.gov/Archives/edgar/data/1026081/000092189520001626/infotable.xml"

test <- url %>% 
  read_xml() %>% 
  xml_nodes("nameOfIssuer") %>% 
  xml_text()

Но это не работает. "тест" пуст. Я также пробовал xpath. Я также пробовал другие варианты, такие как

test <- url %>% 
  read_xml() %>% 
  xml_nodes("infoTable") %>% 
  xml_text()

Мне кажется, что мне не хватает чего-то super basi c. Как бы мне go очистить специфику c информацию об узле отсюда.

Заранее спасибо!

1 Ответ

0 голосов
/ 29 мая 2020

Да, вам не хватает того факта, что узлы, которые вы пытаетесь очистить, находятся внутри определенного пространства имен c xml. Удалите пространство имен, и вам будет хорошо go.

url %>% read_xml() %>% xml_ns_strip() %>% xml_nodes("nameOfIssuer") %>% xml_text()
#>  [1] "BANCORP 34 INC"               "BANC OF CALIFORNIA INC"      
#>  [3] "BANKWELL FINL GROUP INC"      "CBM BANCORP INC"             
#>  [5] "CARTER BK & TR MARTINSVILLE"  "CITIZENS FINL GROUP"         
#>  [7] "CIVISTA BANCSHARES INC"       "COLUMBIA FINL INC"           
#>  [9] "CONNECTONE BANCORP INC NEW"   "FSB BANCORP INC"             
#> [11] "FIRST UTD CORP"               "HV BANCORP INC"              
#> [13] "HARBORONE BANCORP INC NEW"    "INVESTORS BANCORP INC NEW"   
#> [15] "MSB FINL CORP NEW"            "MALVERN BANCORP INC"         
#> [17] "MID SOUTHERN BANCORP INC"     "NORTHEAST BK LEWISTON ME"    
#> [19] "PB BANCORP INC"               "PEAPACK-GLADSTONE FINL CORP" 
#> [21] "PIONEER BANCORP INC"          "PROVIDENT BANCORP INC"       
#> [23] "PRUDENTIAL BANCORP INC NEW"   "RICHMOND MUT BANCORPORATIN I"
#> [25] "SELECT BANCORP INC NEW"       "STERLING BANCORP DEL"        
#> [27] "WATERSTONE FINL INC MD"       "WINTRUST FINL CORP" 
...