Я пытаюсь создать минимальные, максимальные и средние столбцы для фрейма данных sparklyr. Я хочу использовать только 5 столбцов из этого большого фрейма данных, по очереди в расчете. В столбцах есть много значений NaN, которые могут вычислять вещи. В стандарте R используемый код будет:
df_train$MinEncoding <- spark_apply(df_train,f=min ,columns=[,EncodingFeatures], 1, FUN=min,na.rm=TRUE)
df_train$MaxEncoding <- spark_apply(df_train[,EncodingFeatures], 1, FUN=max,na.rm=TRUE)
df_train$MeanEncoding <- spark_apply(df_train[,EncodingFeatures], 1, FUN=mean,na.rm=TRUE)
Я пробовал
df_train %>% spark_apply(function(df) {dplyr::mutate(df, MeanLicenceEncoding = mean(LicenceEncodingFeatures))})
Однако искра прерывает работу. Может кто-нибудь помочь, пожалуйста?