Проблемы с функцией readPDF в пакете Rstudio tm - PullRequest
0 голосов
/ 21 апреля 2019

Я пытаюсь открыть PDF-файлы с пакетом Rstudios TM.Раньше код у меня работал, но после переустановки windows его уже нет.Однако я не могу найти источник проблемы.

Поскольку проблема возникла после переустановки Windows, проблема должна заключаться в том, находит ли rstudio программы xpdf.Однако я установил xpdf-ридер (который был ненужен, если я прав) и поместил инструменты командной строки, загруженные здесь (http://www.xpdfreader.com/download.html),, в папки Program Files (x64) (64bit xpdf-folder)и Программные файлы (32-битная папка xpdf) на моем компьютере. Затем я включил ссылки в переменную окружения в PATH, как и должно быть (я начал с 64-битной версии, но поскольку она не работала, я включил другую).папки, чтобы быть уверенным.)

После этого мой код сможет загружать файлы PDF, иметь хороший контур и разделять страницы с помощью // f, как описано здесь: https://medium.com/@CharlesBordet/how-to-extract-and-clean-data-from-pdf-files-in-r-da11964e252e. Проблема в том, что это не так. Хотя R-studio находит pdfinfo и pdftotext:

file.exists(Sys.which(c("pdfinfo", "pdftotext")))
[1] TRUE TRUE

И это заставляет меня сомневаться в том, что является настоящей проблемой. Так что если кто-то имеет представление о том, чтопроблема может заключаться в том, что вы могли бы помочь мне с кучей!

Код, который я использую для получения текста, выглядит следующим образом:

read <- readPDF(engine=c("xpdf"),control = list(text = "-layout"))
document <- Corpus(URISource(   paste("1. To do list/", ALL_paper[T], sep="") ), readerControl = list(reader = readPDF))
doc <- content(document[[1]])

Вывод должен быть аккуратно упорядочен, но следующий:

[9] "ci-Genistetea lobelii Klein 1972, characterized by many Corsican and Sardo-Corsican\r\ns such as Thymus herba-barona Loisel., Armeria multiceps Wallr., Genista salzmanni\r\n lioides (Gamisans) Gamisans & Jeanm., Hieracium soleirolianum Arv.-Touv. & Briq.,\r\nmacrocephala Moris, Poa balbisii Parl., Bunium corydalinum DC., Cerastium soleirolii\r\n gusticum corsicum Gay and Galium corsicum Spreng.\r\n al specimens examined. – Corsica: Serre di Scapamere, pres de Sartene (Corse),\r\n , Tillet (FI); in dumosis apricis

Большое спасибо заранее!

...