Используйте rvest для чтения xml данных, содержащихся в файле .txt - PullRequest
0 голосов
/ 26 мая 2020

Я пытаюсь прочитать xml данные по следующей ссылке:

https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt

Когда я использую read_ xml из пакета rvest

link <- "https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt"
html_test <- read_xml(link)

Я получаю сообщение об ошибке:

"Ошибка в read_ xml .raw (raw, encoding = encoding, base_url = base_url, as_ html = as_ html,: Несоответствие открывающего и конечного тегов: ACCEPTANCE-DATETIME строка 3 и SE C -HEADER [76] "

Есть ли способ прочитать этот текстовый файл и извлечь определенные xml теги?

Заранее спасибо!

1 Ответ

0 голосов
/ 26 мая 2020

Вероятно, вы имеете дело с поврежденным файлом xml, как упоминалось здесь . Чтение с read_html работает. Затем вы можете поместить это в список и работать с ним, но это может быть невозможно в зависимости от того, что именно вам нужно извлечь.

library(xml2)
link <- "https://www.sec.gov/Archives/edgar/data/1000275/000156761920010411/0001567619-20-010411.txt"
html_test <- read_html(link)

html_list <- as_list(html_test)

...