R скрипт - ошибка PDF: недопустимый символ в шестнадцатеричной строке;когда я ищу ключевые слова - PullRequest
0 голосов
/ 24 ноября 2018

Я пытаюсь подсчитать количество ключевых слов в нескольких файлах PDF.

library(tm)
library(pdftools)

files <- list.files(pattern = "pdf$")
Rpdf <- readPDF(control = list(text = "-layout"))
corp <- Corpus(URISource(files), readerControl = list(reader = Rpdf))

words <- c("example", "keyword", "test")
dt <- DocumentTermMatrix(corp, control=list(dictionary=words))

Когда я запускаю код, я всегда получаю следующие ошибки:

PDF error: May not be a PDF file (continuing anyway)
PDF error (3): Illegal character <21> in hex string
PDF error (5): Illegal character <4f> in hex string
PDF error (7): Illegal character <54> in hex string
PDF error (8): Illegal character <59> in hex string
PDF error (9): Illegal character <50> in hex string
PDF error: Couldn't find trailer dictionary
PDF error: Couldn't find trailer dictionary
PDF error: Couldn't read xref table
Error in poppler_pdf_text(loadfile(pdf), opw, upw) : PDF parsing failure.
In addition: There were 12 warnings (use warnings() to see them)

Если у вас есть предложения, пожалуйста, дайте мне знать.Спасибо!

...