Цикл нескольких PDF и преобразование в несколько Excel с использованием R-программирования - PullRequest
0 голосов
/ 06 июля 2018

У меня есть несколько файлов PDF в папке. Я выполняю определенные операции и превращаю их в Excel. Ниже приведен код,

init <- dir(path = "C:/Users/sankirtanmoturi/Desktop/rloop", pattern = "\\.pdf$", all.files = TRUE, full.names = TRUE)
trans <- function(file){
      try <- pdf_text(file)
      try1 <- unlist(str_split(try,"[\\r\\n]+"))
      try2 <- str_split_fixed(str_trim(try1), "\\s{1,}, 20")
      write.xlsx(try2, sub("\\.xlsx$", "-UP.xlsx", file))
 }
lapply(init, trans)

Я получаю сообщение об ошибке ниже

Ошибка идентичного (n, Inf): отсутствует аргумент "n", по умолчанию нет

Я понял, что есть проблема с str_split или str_split_fixed. Но если я не пытаюсь выполнить цикл для одного файла, он успешно конвертируется

Пожалуйста, помогите мне запустить это для всех файлов PDF в папке

1 Ответ

0 голосов
/ 06 июля 2018

В вашем вопросе в основном опечатки. Следующий код должен работать:

init <- dir(path = "C:/Users/sankirtanmoturi/Desktop/rloop", pattern = "\\.pdf$", all.files = TRUE, full.names = TRUE)
trans <- function(file){
  try <- pdf_text(file)
  try1 <- unlist(str_split(try,"[\\r\\n]+"))
  try2 <- str_split_fixed(str_trim(try1), "\\s{1,}", 20)
  write.xlsx(try2, sub("\\.pdf$", "-UP.xlsx", file))
}
lapply(init, trans)
...