чтение в .txt и .htm страницах в r - PullRequest
0 голосов
/ 28 января 2019

Я пытаюсь прочитать в разделе веб-сайта, используя следующее:

library(edgar)

getMasterIndex(2017)
load("Master Index/2017master.Rda")

files <- getFilings(2017, 1000209, '10-K')

link <- files$Link
link <- as.character(link)

library(rvest)


link <- levels(link)

read.delim2(link)

Я получаю следующую ошибку:

Error in read.table(file = file, header = header, sep = sep, quote = quote,  : 
  more columns than column names

Однако меня интересует только Чтениефайла:

> link
[1] "https://www.sec.gov/Archives/edgar/data/1000209/0001193125-17-082178.txt"

Что соответствует этой папке

https://www.sec.gov/Archives/edgar/data/1000209/000119312517082178/0001193125-17-082178-index.html

Текстовый документ находится там "0001193125-17-082178.txt", как упоминалось ранее, вместе с соответствующей версией HTML"d281892d10k.htm".

Я пытаюсь прочитать текст, связанный с формой "d281892d10k.htm" в HTML-ссылке.

"https://www.sec.gov/Archives/edgar/data/1000209/000119312517082178/d281892d10k.htm"

т.е. просто "ПУНКТ 1" с HTML-страницы выше.

Я могу прочитать в файле .txt "https://www.sec.gov/Archives/edgar/data/1000209/0001193125-17-082178.txt", но не могу получить доступ к части" ПУНКТ 1 ".

Мой вопрос заключается в том, как я могу прочитать только «ПУНКТ 1» части .txt?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...