Я извлекаю текст из PDF.Удаление пунктуации и просмотр ключевых повторяющихся слов и частоты их появления.
library(pdftools)
library(tm)
setwd("S:/Shared Folders/Impact Investing/Investment/Scripts/PDF")
files <- list.files(pattern = "pdf$")
opinions <- lapply(files, pdf_text)
corp <- Corpus(URISource(files),
readerControl = list(reader = readPDF))
opinions.tdm <- TermDocumentMatrix(corp,
control =
list(removePunctuation = TRUE,
stopwords = TRUE,
tolower = TRUE,
stemming = TRUE,
removeNumbers = TRUE,
bounds = list(global = c(3, Inf))))
inspect(opinions.tdm[1:10,])
В настоящее время я получаю сообщение об ошибке:
Ошибка в [.simple_triplet_matrix
(мнения.tdm, 1: 10,): нижний индекс вне границ
My opinions.tdm
имеет следующие характеристики:
длина списка мнений .ddm 6. целое число nrow [1].Ncol [1].список димов [2].атрибуты [3]