Почему сеанс R прерывается в цикле for с 13 K PDF-файлами? - PullRequest
0 голосов
/ 15 июня 2019

Я делаю цикл for для 13 K PDF-файлов, где он читает, предварительно обрабатывает текст, находит сходства и пишет в txt. Однако, когда я запускаю цикл for после 760 pdf-файлов, R-сеанс прерывается. В чем может быть причина?

  1. Я пытался написать минимальный код для воспроизведения ошибки. Но я получаю ту же проблему.
  2. Я пытался увеличить memory_limit(), это тоже не проблема.
  3. Я пытался удалить скрытые файлы в папке, например Thumbs.db, но та же проблема появляется снова.
  4. Я попытался разделить 13 K PDF-файлов на 4 папки, каждая (3,3 КБ), и получил то же сообщение об ошибке Error in file(file, ifelse(append, "a", "w")) : can not open the connection. In addition: There are 50 warnings() and R session aborted.
  5. Когда я запускаю pdf_folder [759: 762], он отлично читается без прерывания.

folder_path <- "C: ...."
## get vector with all pdf names
pdf_folder <- list.files(folder.path)

## for loop over all pdf documents
for(s in 1:length(pdf_folder)){
 # for(s in 1:2){
 tryCatch({


   ## choose one pdf document from vector of strings
   pdf_document_name <- pdf_folder[s]

   ## read pdf_document pdf into data.frame
   pdf <- read_pdf(paste0(folder_path,"/",pdf_document_name))

   print(s)

   rm(pdf)

 ## first end trycatch block
}, error = function(e){print(paste("Error: PDF Document not used: ",pdf_document_name, sep =""))}
 ) ## end of trycatch

} ## end of for loop

# Error: 

Error in file(file, ifelse(append, "a", "w")) : can not open the connection. In addition: There are 50 warnings()

Ожидаемый результат - чтение, предварительная обработка всех документов PDF в папке .path.

...