R не читает текст из PDF - PullRequest
0 голосов
/ 05 мая 2020

Я уже некоторое время пытаюсь прочитать папку PDF-файлов в R, чтобы сделать корпус. Я использовал:

teleeos<- readtext("C:/Users/dklimkina/Desktop/Text Analysis Project/Corpus/Telehealth", encoding = "UTF-8")
directory<-("C:/Users/dklimkina/Desktop/Text Analysis Project/Corpus/Telehealth")
teleeos<- readtext(directory) 

и

setwd("C:/Users/dklimkina/Desktop/Text Analysis Project/Corpus/Telehealth")
install.packages("pdftools")
library(pdftools)
files <- list.files(pattern = "pdf$")

, и я изменил свои типы PDF, но все, что я получаю, это PDF error (63): Illegal character <29> in hex string, что бы я ни делал. Есть мысли?

1 Ответ

0 голосов
/ 05 мая 2020

Было бы целесообразно попытаться изолировать файл, вызывающий проблему, и изучить его дальше. Без воспроизводимого примера или доступа к исходным файлам мы не сможем помочь вам в этом.

Сначала попробуйте без аргумента encoding = "UTF-8".

Вы также можете попробовать альтернативный инструмент. Поскольку я вижу, что вы используете Windows, попробуйте следующее:

  1. Загрузите xpdf набор инструментов для вашей платформы. Это включает в себя нужную вам часть, pdftotext.

  2. Используйте Windows PowerShell ISE (интегрированная среда сценариев) в программах / стандартных, как показано ниже (с настройками пути в соответствии с требованиями вашей системы), чтобы запустите этот сценарий.

Он может лучше преобразовать ваши файлы в текст.

cd "C:/Users/dklimkina/Desktop/Text Analysis Project/Corpus/Telehealth"
$FILES = ls *.pdf
foreach ($f in $FILES) {
    pdftotext -enc UTF-8 $f
}

Если этот скрипт завершился неудачно, то, если вам удастся изолировать проблемный PDF-файл, попробуйте просто запустить pdftotext problemfile.pdf для этого файла и посмотреть, работает ли это.

...