Question

Я извлекаю текст из PDF.Удаление пунктуации и просмотр ключевых повторяющихся слов и частоты их появления.

library(pdftools)
library(tm)

setwd("S:/Shared Folders/Impact Investing/Investment/Scripts/PDF")

files <- list.files(pattern = "pdf$")
opinions <- lapply(files, pdf_text)

corp <- Corpus(URISource(files),
           readerControl = list(reader = readPDF))

opinions.tdm <- TermDocumentMatrix(corp, 
        control = 
            list(removePunctuation = TRUE,
            stopwords = TRUE,
            tolower = TRUE,
            stemming = TRUE,
            removeNumbers = TRUE,
            bounds = list(global = c(3, Inf)))) 

inspect(opinions.tdm[1:10,])

В настоящее время я получаю сообщение об ошибке:

Ошибка в [.simple_triplet_matrix (мнения.tdm, 1: 10,): нижний индекс вне границ

My opinions.tdm имеет следующие характеристики:

длина списка мнений .ddm 6. целое число nrow [1].Ncol [1].список димов [2].атрибуты [3]

нижний индекс за пределами.Извлечение PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

нижний индекс за пределами.Извлечение PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы