У меня есть большой список файлов, которые я хочу прочитать в R как корпус. Все файлы были в формате pdf, но недавно я понял, что некоторые из них будут в формате txt.
До того, как у меня были текстовые файлы, я просто создавал список PDF-файлов, которые находятся в каталоге, и читал их, используя функцию Corpus с readerControl:
getwd()
files <- list.files(pattern = "pdf$")
corp <- Corpus(URISource(files),
readerControl = list(reader = readPDF))
Я пытался создать комбинированный список файлов pdf и txts, но не могу найти способ использовать readerContrl для файлов pdf или txt:
files1 <- list.files(pattern = "pdf$")
files2 <- list.files(pattern = "txt$")
files<-c(files1,files2)
corp <- Corpus(URISource(files),
readerControl = list(reader = c(readPDF,readPlain)))
Есть идеи, как решить эту проблему?
Я думал о слиянии двух элементов Copuses, один, который reader = readPDF, другой, который reader = readPlain. Но так как я новичок в области интеллектуального анализа текста, я не уверен, что лучше всего делать это.