Чтение нескольких страниц PDF с read_lines - PullRequest
0 голосов
/ 11 декабря 2018

Я использую pdftools, чтобы импортировать текст в R из PDF, и readr, чтобы читать его построчно.Это работает для первой страницы, но останавливается на этом.

Кажется, что было бы так просто читать все страницы документа, и все же я получаю один и тот же результат с несколькими разными документами.Исходя из примера кода, есть ли пропущенный шаг?

install.packages("pdftools")
install.packages("readr")
library(pdftools)
library(readr)    

download.file("http://www.africau.edu/images/default/sample.pdf", 
"sample.pdf")
sample <- pdf_text("sample.pdf")
sample <- read_lines(sample)

print(sample)

Может быть уместно добавить, при выполнении команды read_lines выдается предупреждение: «при выполнении команды read_lines выдается следующее:

 "Warning message:
  In if (grepl("\n", file)) { :
  the condition has length > 1 and only the first element will be used""

1 Ответ

0 голосов
/ 11 декабря 2018

Работает, удалив readr и pdftools, перезапустив R и переустановив пакеты.

...