Очистка файлов PDF от сети - PullRequest
       1

Очистка файлов PDF от сети

0 голосов
/ 28 февраля 2019

На этот вопрос ответили здесь ( Веб-очистка PDF-файлов из HTML ), но решение не работает для меня ни по моему целевому URL-адресу, ни по целевому URL-адресу операции.Я не должен задавать этот вопрос в качестве ответа на предыдущее сообщение, поэтому я начинаю новый вопрос.

Мой код точно соответствует описанию, и сообщение об ошибке, которое я получаю: «Ошибка вdownload.file (links [i], destfile = save_names [i]): неверный аргумент 'url'

Я использую следующий код:

install.packages("RCurl")
install.packages("XML")
library(XML)
library(RCurl)
url <- "https://www.bot.or.th/English/MonetaryPolicy/Northern/EconomicReport/Pages/Releass_Economic_north.aspx"
page   <- getURL(url)
parsed <- htmlParse(page)
links  <- xpathSApply(parsed, path="//a", xmlGetAttr, "href")
inds   <- grep("*.pdf", links)
links  <- links[inds]


regex_match <- regexpr("[^/]+$", links)
save_names <- regmatches(links, regex_match)

for(i in seq_along(links)){
  download.file(links[i], destfile=save_names[i])
  Sys.sleep(runif(1, 1, 5))

}

Любая помощь высоко ценится!Спасибо

1 Ответ

0 голосов
/ 28 февраля 2019

Решено!Я не знаю, почему это работает, но это работает.Я поменял цикл for для следующего кода, и он работает:

Map (function(u, d) download.file(u, d, mode='wb'), links, save_names) 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...