Я пытаюсь прочитать в разделе веб-сайта, используя следующее:
library(edgar)
getMasterIndex(2017)
load("Master Index/2017master.Rda")
files <- getFilings(2017, 1000209, '10-K')
link <- files$Link
link <- as.character(link)
library(rvest)
link <- levels(link)
read.delim2(link)
Я получаю следующую ошибку:
Error in read.table(file = file, header = header, sep = sep, quote = quote, :
more columns than column names
Однако меня интересует только Чтениефайла:
> link
[1] "https://www.sec.gov/Archives/edgar/data/1000209/0001193125-17-082178.txt"
Что соответствует этой папке
https://www.sec.gov/Archives/edgar/data/1000209/000119312517082178/0001193125-17-082178-index.html
Текстовый документ находится там "0001193125-17-082178.txt", как упоминалось ранее, вместе с соответствующей версией HTML"d281892d10k.htm".
Я пытаюсь прочитать текст, связанный с формой "d281892d10k.htm" в HTML-ссылке.
"https://www.sec.gov/Archives/edgar/data/1000209/000119312517082178/d281892d10k.htm"
т.е. просто "ПУНКТ 1" с HTML-страницы выше.
Я могу прочитать в файле .txt "https://www.sec.gov/Archives/edgar/data/1000209/0001193125-17-082178.txt", но не могу получить доступ к части" ПУНКТ 1 ".
Мой вопрос заключается в том, как я могу прочитать только «ПУНКТ 1» части .txt?