Можно ли использовать параллельную обработку с помощью инструмента анализа настроений getVaderRuleBasedSentiment (VADER) для нескольких наборов данных одновременно? - PullRequest
0 голосов
/ 26 марта 2020

Я довольно новичок в коде R и, следовательно, борюсь с задачей понимания параллельной обработки. Приведенный ниже код является примером того, что я пытаюсь сделать, когда я ввожу PDF, разделяю страницы для анализа, а затем подаю его в инструмент анализа настроений.

Однако я обнаружил, что должен делать это один за другим, и, учитывая, что окончательный набор данных может состоять из тысяч отдельных файлов PDF, я надеялся получить несколько советов о том, как упростить процесс. так как использую более одного ядра компьютера (у меня есть доступ к компьютеру с 16 ядрами).

Я понимаю, что этот вопрос является базовым c, однако я не смог найти адекватного ответа, который был связан с R, в основном все ответы для Python. Спасибо заранее!

library(sentimentSetsR)
library(pdftools)
library(tesseract)
library(tm)


## Get the text from a PDF
text <- pdf_ocr_text(file.choose(), pages = NULL,language = "eng", dpi = 600)

processText <- function(inputText, textname){
  outputName <- Corpus(VectorSource(inputText))
  outputName <- tm_map(outputName,PlainTextDocument)
  outputName <- tm_map(outputName, removeNumbers)
  outputName <- tm_map(outputName, stripWhitespace)
  assign(textname, outputName, envir = .GlobalEnv)
  return(textname)

}

processText(text[1],"newtext1")
processText(text[2],"newtext2")
processText(text[3],"newtext3")
processText(text[4],"newtext4")
processText(text[4],"newtext5")
processText(text[6],"newtext6")


getVaderRuleBasedSentiment(newtext1[["content"]][["content"]], compound=F)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...