Как читать несколько файлов PDF в R? - PullRequest
0 голосов
/ 12 сентября 2018

У меня есть скрипт, который я использую для чтения нескольких файлов PDF. Вот мой код

corpus_raw <- data.frame("company" = c(),"text" = c(), check.names = FALSE)

for (i in 1:length(pdf_list)){
  print(i)
  document_text <- pdf_text(paste("V:/CodingProject2_FundOverview/", pdf_list[i],sep = "")) %>% 
    strsplit("\r\n") 

  document <- data.frame("company" = gsub(x = pdf_list[i],pattern = ".pdf", replacement = ""), 
              "text" = document_text, stringsAsFactors = FALSE, check.names = FALSE)

  colnames(document) <- c("company", "text")
  corpus_raw <- rbind(corpus_raw,document) 
}

Я получаю следующее сообщение об ошибке:

Error in (function (..., row.names = NULL, check.rows = FALSE, check.names = TRUE,  : 
  arguments imply differing number of rows: 79, 56

Я даже пытался оставить check.names = FALSE, но мне кажется, что я делаю что-то не так. Любая помощь будет оценена. Спасибо

1 Ответ

0 голосов
/ 12 сентября 2018

Я знал, что делаю что-то глупое.В любом случае, я смог сам найти ответ.

for (i in 1:length(pdf_list)){
  print(i)
  document_text <- pdf_text(paste("V:/CodingProject2_FundOverview/", pdf_list[i],sep = "")) %>% 
    strsplit("\r\n") 

  document <- data.frame("company" = gsub(x = pdf_list[i],pattern = ".pdf", replacement = ""), 
              "text" = I(document_text), stringsAsFactors = FALSE, check.names = FALSE)

  colnames(document) <- c("company", "text")
  corpus_raw <- rbind(corpus_raw,document) 
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...