Я полный новичок, работающий над некоторым текстовым анализом в R.
У меня есть папка из ~ 12000 PDF-документов, которые я пытаюсь преобразовать в корпус для анализа.
У меня есть пытался сделать это несколькими разными способами:
###Directory
directory <- "C:/Users/lewis/Desktop/Bank__Speeches/Bank__Speeches/All_Speech_Pdf/2007-2020"
##First attempt
text <- readtext(directory)
##Second attempt
text <- readtext::readtext("C:/Users/lewis/Desktop/Bank__Speeches/Bank__Speeches/All_Speech_Pdf/2007-2020")
##Third attempt
text <- readtext("C:/Users/lewis/Desktop/Bank__Speeches/Bank__Speeches/All_Speech_Pdf/2007-2020")
##Fourth attempt
corpus <- VCorpus(DirSource(directory, pattern = ".pdf"),
readerControl = list(reader = readPDF))
Во всех случаях я получаю следующую ошибку, которую, несмотря на много поисков в Google, я не смог найти в другом месте ...
«Ошибка PDF: ожидалась конфигурация по умолчанию, но не удалось ее найти, или это не словарь»
Я загрузил отдельный набор PDF-файлов в качестве тестового файла и запустил тот же код, и это сработало.
directory_test <- ("C:/Users/lewis/Desktop/Practice_R_data/")
text <- readtext(directory_test)
Я пробовал добавить encoding = unicode-8, но это ничего не помогло.
Я предполагаю, что проблема связана с PDF-файлами, но я не уверен в чем? Любая помощь будет принята с благодарностью.
ССЫЛКА на папку с образцом рассматриваемых PDF-файлов https://drive.google.com/drive/folders/1RFyrytj7MkzIhrf-jwttQ_LnWSn95gJk?usp=sharing