Ошибка загрузки PDF-файлов из списка ссылок в R - PullRequest
2 голосов
/ 31 марта 2020

У меня есть список из 75 000 ссылок, которые выглядят следующим образом:

urls <– c("https://growthlab.cid.harvard.edu/files/growthlab/files/2019-04-cid-wp-350-smart-development-banks.pdf", "https://www.dynare.org/wp-repo/dynarewp040.pdf", "https://www.dynare.org/wp-repo/dynarewp037.pdf", "https://www.dynare.org/wp-repo/dynarewp033.pdf", "https://www.dynare.org/wp-repo/dynarewp907.pdf")

Не все ссылки по-прежнему работают (они из старой базы данных, а некоторые будут перемещены / удалены), поэтому я ' Я пытаюсь использовать функцию try, чтобы пропустить ошибки следующим образом:

for (url in urls) try({download.file(url,  destfile="~/Dataset/saved_pdfs")})

Однако при каждом запуске кода ничего не сохраняется. Есть идеи, что не так? Не уверен, что это имеет значение, но я использую ма c.

Заранее спасибо за помощь!

1 Ответ

1 голос
/ 31 марта 2020

Вам нужно имя файла как destile, а не имя папки. Попробуйте что-то вроде этого:

url_vec <- unlist(urls)

for (i in seq_along(url_vec)) {
    tryCatch({download.file(url_vec[i],  
       paste0('Downloads/saved_pdfs/file', i, '.pdf'))}, error = function(e) {})
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...