То, что я вижу в официальных уроках, это использование функции as_h2o_frame
в rsparkling
для преобразования Spark
фрейма данных в h2o
фрейм данных. Затем используйте h2o
фрейм данных как обычно. Интересно, есть ли способ интеграции h2o
алгоритмов (например, h2o.randomforest
) с pipeline
в Spark
, чтобы я мог сделать что-то вроде этого:
pipeline <- ml_pipeline(sc) %>% ft_dplyr_transformer(tbl = dplyr_transformation) %>% h2o.randomForest(...)
fitted_pipeline <- ml_fit(pipeline,data)
cleaned_data <- ml_transform(fitted_pipeline,data)