Я хотел бы скачать PDF-файл из Интернета и сохранить его на локальном HD. После загрузки выходной файл PDF содержит много пустых страниц. Что я могу сделать, чтобы это исправить?
Пример:
require(XML) url <- ('http://cran.r-project.org/doc/manuals/R-intro.pdf') download.file(url, 'introductionToR.pdf')
Заранее спасибо.
Попробуйте использовать wb-режим следующим образом:
download.file(url, 'introductionToR.pdf', mode="wb").
download.file(url, 'introductionToR.pdf', mode="wb")
Для меня это так работает.
Вы можете загрузить PDF-файлы и экспортировать таблицы в виде data.frame, используя пакет tabulizer
https://ropensci.org/tutorials/tabulizer_tutorial.html
install.packages("devtools") # on 64-bit Windows ghit::install_github(c("ropenscilabs/tabulizerjars", "ropenscilabs/tabulizer"), INSTALL_opts = "--no-multiarch") # elsewhere ghit::install_github(c("ropenscilabs/tabulizerjars", "ropenscilabs/tabulizer")) library(tabulizer) f2 <- "https://github.com/leeper/tabulizer/raw/master/inst/examples/data.pdf" extract_tables(f2, pages = 1, method = "data.frame")