Прочитайте несколько файлов PDF в R с pdf_text - PullRequest
0 голосов
/ 24 января 2020

У меня есть несколько файлов PDF в моем каталоге. Я скачал их ранее, пока что ничего страшного.

Я хочу прочитать все эти файлы в R. Моя идея состояла в том, чтобы использовать функцию "pdf_text" из пакета "pdftools" и написать такую ​​формулу, как эта :

mypdftext <- pdf_text(files)

Где «файлы» - это объект, который собирает все имена файлов PDF, поэтому мне не нужно писать все имена вручную. Поскольку я на самом деле загружал много файлов, я бы не стал писать:

mypdftext <- pdf_text("file1.pdf", "file2.pdf", and many more files...)

Чтобы создать объект "pdflist", я использовал "files <- list.files (pattern =" pdf $ "). ) «Вектор« files »содержит все имена файлов PDF. </p>

Но« files »не работает с функцией pdf_text, возможно потому, что это вектор. Что я могу сделать вместо этого?

Ответы [ 2 ]

0 голосов
/ 24 января 2020

возможно, это не лучшее решение, но это работает для меня:

library(pdftools)

# Set your path here.
your_path = 'C:/Users/.../pdf_folder'
setwd(your_path)
getwd()



lf = list.files(path=getwd(), pattern=NULL, all.files=FALSE,
           full.names=FALSE)


#Creating a list to iterate 
my_pdfs = {}

#Iterate. Asssign each element of list files, to a list. 
for (i in 1:length(lf)){my_pdfs[i] <- pdf_text(lf[i])}

#Calling the first pdf of the list.
my_pdfs[1] 

Затем вы можете назначить каждый из файлов PDF в один файл, что вы хотите. Конечно, каждый файл будет сохранен в каждом элементе списка. Решает ли это вашу проблему?

0 голосов
/ 24 января 2020

Вы можете попробовать использовать lapply над вектором, содержащим местоположение каждого файла PDF (files). Я бы рекомендовал использовать list.files(..., full.names = T), чтобы получить полное местоположение каждого файла PDF. Это должно работать.

mypdfs<-lapply(files, pdf_text)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...