Как я могу обучить модель распределенного машинного обучения на искре для каждой группы внутри фрейма данных (полученного после группы с помощью ключевой операции)?
sparklyR предлагает эту удобную функцию:
http://spark.rstudio.com
spark_apply(
iris_tbl,
function(e) broom::tidy(lm(Petal_Width ~ Petal_Length, e)),
names = c("term", "estimate", "std.error", "statistic", "p.value"),
group_by = "Species"
)
но возможно ли нечто подобное в обычном scala API?
Я слышал, что может быть предложен набор / weka / ..., но у этого есть недостаток - не разрешать распределенное обучение.
Есть ли способ также разрешить распределенное обучение сгруппированным моделям?Для линейной регрессии Групповая линейная регрессия в Spark - отличный обходной путь, но как насчет древовидных моделей?