Неизвестная ошибка при использовании текста чтения с PDF-файлами - PullRequest
0 голосов
/ 28 мая 2020

Я полный новичок, работающий над некоторым текстовым анализом в R.

У меня есть папка из ~ 12000 PDF-документов, которые я пытаюсь преобразовать в корпус для анализа.

У меня есть пытался сделать это несколькими разными способами:

###Directory

directory <- "C:/Users/lewis/Desktop/Bank__Speeches/Bank__Speeches/All_Speech_Pdf/2007-2020"

##First attempt

text <- readtext(directory)

##Second attempt
text <- readtext::readtext("C:/Users/lewis/Desktop/Bank__Speeches/Bank__Speeches/All_Speech_Pdf/2007-2020")

##Third attempt

text <- readtext("C:/Users/lewis/Desktop/Bank__Speeches/Bank__Speeches/All_Speech_Pdf/2007-2020")

##Fourth attempt

corpus <- VCorpus(DirSource(directory, pattern = ".pdf"),
                  readerControl = list(reader = readPDF))

Во всех случаях я получаю следующую ошибку, которую, несмотря на много поисков в Google, я не смог найти в другом месте ...

«Ошибка PDF: ожидалась конфигурация по умолчанию, но не удалось ее найти, или это не словарь»

Я загрузил отдельный набор PDF-файлов в качестве тестового файла и запустил тот же код, и это сработало.

directory_test <- ("C:/Users/lewis/Desktop/Practice_R_data/")

text <- readtext(directory_test)

Я пробовал добавить encoding = unicode-8, но это ничего не помогло.

Я предполагаю, что проблема связана с PDF-файлами, но я не уверен в чем? Любая помощь будет принята с благодарностью.

ССЫЛКА на папку с образцом рассматриваемых PDF-файлов https://drive.google.com/drive/folders/1RFyrytj7MkzIhrf-jwttQ_LnWSn95gJk?usp=sharing

...