Как я могу преобразовать несколько PDF-файлов в корпус для анализа текста в R? - PullRequest
0 голосов
/ 28 июня 2018

У меня очень простой вопрос, потому что я абсолютный новичок. Я пытался найти помощь в Интернете и читать различные учебные пособия и руководства, но не могу найти ответ.

Мой проект очень прост. У меня есть десятки PDF-файлов (хранятся в папке), которые я хочу проанализировать на предмет их содержания (обучение без учителя). Конечная цель - тематический анализ. Теперь вот проблема: каждое руководство, которое я могу найти, прыгает прямо в предварительную обработку этих текстов, не проходя через первые шаги загрузки этих файлов в R и определения корпуса.

Итак, в основном, я хочу разбить все эти PDF-файлы в рамках данных для анализа, но я пропускаю первый шаг загрузки их в R.

Любая помощь будет принята с благодарностью.

1 Ответ

0 голосов
/ 28 июня 2018

Есть несколько способов, но если вы хотите получить его в корпус, есть простой способ сделать это. Для этого требуется, чтобы был установлен пакет pdftools (install.packages("pdftools")), поскольку это будет механизм, используемый для чтения PDF-файлов. Тогда это просто вопрос использования пакета tm для чтения всего в корпус.

library(tm)

directory <- getwd() # change this to directory where files are located

# read the pdfs with readPDF, default engine used is pdftools see ?readPDF for more info
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf"), 
                               readerControl = list(reader = readPDF))
...