Было бы целесообразно попытаться изолировать файл, вызывающий проблему, и изучить его дальше. Без воспроизводимого примера или доступа к исходным файлам мы не сможем помочь вам в этом.
Сначала попробуйте без аргумента encoding = "UTF-8".
Вы также можете попробовать альтернативный инструмент. Поскольку я вижу, что вы используете Windows, попробуйте следующее:
Загрузите xpdf набор инструментов для вашей платформы. Это включает в себя нужную вам часть, pdftotext.
Используйте Windows PowerShell ISE (интегрированная среда сценариев) в программах / стандартных, как показано ниже (с настройками пути в соответствии с требованиями вашей системы), чтобы запустите этот сценарий.
Он может лучше преобразовать ваши файлы в текст.
cd "C:/Users/dklimkina/Desktop/Text Analysis Project/Corpus/Telehealth"
$FILES = ls *.pdf
foreach ($f in $FILES) {
pdftotext -enc UTF-8 $f
}
Если этот скрипт завершился неудачно, то, если вам удастся изолировать проблемный PDF-файл, попробуйте просто запустить pdftotext problemfile.pdf
для этого файла и посмотреть, работает ли это.