Я довольно новичок в коде R и, следовательно, борюсь с задачей понимания параллельной обработки. Приведенный ниже код является примером того, что я пытаюсь сделать, когда я ввожу PDF, разделяю страницы для анализа, а затем подаю его в инструмент анализа настроений.
Однако я обнаружил, что должен делать это один за другим, и, учитывая, что окончательный набор данных может состоять из тысяч отдельных файлов PDF, я надеялся получить несколько советов о том, как упростить процесс. так как использую более одного ядра компьютера (у меня есть доступ к компьютеру с 16 ядрами).
Я понимаю, что этот вопрос является базовым c, однако я не смог найти адекватного ответа, который был связан с R, в основном все ответы для Python. Спасибо заранее!
library(sentimentSetsR)
library(pdftools)
library(tesseract)
library(tm)
## Get the text from a PDF
text <- pdf_ocr_text(file.choose(), pages = NULL,language = "eng", dpi = 600)
processText <- function(inputText, textname){
outputName <- Corpus(VectorSource(inputText))
outputName <- tm_map(outputName,PlainTextDocument)
outputName <- tm_map(outputName, removeNumbers)
outputName <- tm_map(outputName, stripWhitespace)
assign(textname, outputName, envir = .GlobalEnv)
return(textname)
}
processText(text[1],"newtext1")
processText(text[2],"newtext2")
processText(text[3],"newtext3")
processText(text[4],"newtext4")
processText(text[4],"newtext5")
processText(text[6],"newtext6")
getVaderRuleBasedSentiment(newtext1[["content"]][["content"]], compound=F)