Spark_Apply для ТМ библиотека выдает ошибку - PullRequest
0 голосов
/ 26 июня 2018

Я хочу использовать возможности библиотеки ТМ в sparklyr.Я использовал функцию spark_apply() для того же.Однако я получаю следующую ошибку

Ошибка: невозможно получить spark_connection из объекта класса data.frame

, когда я запускаю свой код.Ниже приведен фрагмент моего кода

myFunction <- function(sparkdataframe){ 
  inputdf<-collect(sparkdataframe)
  inputdf<-as.matrix(inputdf)
  inputdf1<-t(inputdf)
  doc<-Corpus(VectorSource(inputdf1))
  doc<-tm_map(doc,removePunctuation)
  data.frame(doc = sapply(doc, as.character), stringsAsFactors = FALSE)
  return(doc)
}

# Use spark_apply to run function in Spark
spark_apply(sparkdataframe,function(e) (myFunction(e)))

1 Ответ

0 голосов
/ 27 июня 2018

Это потому, что вы пытаетесь collect в замыкании:

inputdf<-collect(sparkdataframe)

Объект, полученный вашей функцией, представляет собой обычный R data.frame.Удалите эту строку полностью и замените следующую на:

inputdf<-as.matrix(sparkdataframe)
...