Конвертировать несколько файлов PDF в файл CSV - PullRequest
0 голосов
/ 24 января 2019

Моя задача - преобразовать все PDF-файлы, как показано на рисунке 1 ниже, в один CSV-файл. То есть одна строка в CSV-файле содержит один PDF-документ.Я использую следующий код, и я борюсь.Будем благодарны за помощь и комментарии.

Спасибо,

  # Convert multiple pdf files to CSV files before mining
  install.packages('pdftools')
  install.packages('xlsx')

  # Relevant libraries
  library("pdftools")
  library("xlsx")

  #Set up a path
  a<-"my path"
  folder<-list.files(path=a,pattern="pdf",full.name=TRUE)

 sapply(folder, FUN=function(i){
 file.rename(from=i,to =paste0(dirname(i),
                            "/",gsub(" ","",basename(i))))})

 folder1<-list.files(path=a,pattern="pdf",full.names=TRUE)  

 lapply(folder1, function(i) system(paste('"C:/Program 
 Files/xpdf/bin64/pdftotext.exe"', paste0('"', i, '"')), wait = FALSE) )

enter image description here

...