Я пытаюсь прочитать xml данные по следующей ссылке:
https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt
Когда я использую read_ xml из пакета rvest
link <- "https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt" html_test <- read_xml(link)
Я получаю сообщение об ошибке:
"Ошибка в read_ xml .raw (raw, encoding = encoding, base_url = base_url, as_ html = as_ html,: Несоответствие открывающего и конечного тегов: ACCEPTANCE-DATETIME строка 3 и SE C -HEADER [76] "
Есть ли способ прочитать этот текстовый файл и извлечь определенные xml теги?
Заранее спасибо!
Вероятно, вы имеете дело с поврежденным файлом xml, как упоминалось здесь . Чтение с read_html работает. Затем вы можете поместить это в список и работать с ним, но это может быть невозможно в зависимости от того, что именно вам нужно извлечь.
read_html
library(xml2) link <- "https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt" html_test <- read_html(link) html_list <- as_list(html_test)