сохранить результаты преобразования PDF в текст, отображаемые в консоли R Studio, в формате .txt - PullRequest
0 голосов
/ 05 июня 2018

Я относительно новичок в R. Я пытаюсь преобразовать pdf в текст, используя код ниже.

library(tm)
file<-list.files("G:\\FlashPointTest\\Test1\\test")
file<-list.files(pattern = "pdf$")
file

Rpdf<-readPDF(control = list(text="-layout"))
Myfile<-Corpus(URISource(file,encoding = "UTF-8"), readerControl = list(reader=Rpdf))
Myfile
inspect(Myfile[[2]])

Все работает нормально с точки зрения точности.Однако я хотел бы сохранить результаты преобразования PDF в текст (после команды «inspect»), отображаемые в консоли R Studio в формате .txt.Пожалуйста, смотрите вложение

Я пытался, но получил результат:

ошибка: "невозможно принудительно привести класс" c ("VCorpus", "Corpus") "к data.frame"

Пожалуйста, помогите.Спасибо Не удается принудительно вызвать класс

1 Ответ

0 голосов
/ 05 июня 2018

Если вы хотите записать текст корпуса на диск, вы можете использовать функцию writeCorpus из пакета tm

В вашем случае writeCorpus(Myfile) записывает все документы в корпусе на диск какотдельные файлы (при условии, что у вас есть несколько документов в корпусе).

Вы только первый документ writeCorpus(Myfile[1]).

Вы также можете изменить путь или имена файлов.Просто проверьте документацию с помощью writeCorpus

...