Распределенная модель распределительного поезда на группу - PullRequest
0 голосов
/ 12 октября 2018

Как я могу обучить модель распределенного машинного обучения на искре для каждой группы внутри фрейма данных (полученного после группы с помощью ключевой операции)?

sparklyR предлагает эту удобную функцию:

http://spark.rstudio.com

spark_apply(
  iris_tbl,
  function(e) broom::tidy(lm(Petal_Width ~ Petal_Length, e)),
  names = c("term", "estimate", "std.error", "statistic", "p.value"),
  group_by = "Species"
)

но возможно ли нечто подобное в обычном scala API?

Я слышал, что может быть предложен набор / weka / ..., но у этого есть недостаток - не разрешать распределенное обучение.

Есть ли способ также разрешить распределенное обучение сгруппированным моделям?Для линейной регрессии Групповая линейная регрессия в Spark - отличный обходной путь, но как насчет древовидных моделей?

...