трубопровод spark ML дает разные значения для разных трасс - PullRequest
0 голосов
/ 10 июня 2018

У меня есть конвейер с тем же входом (кэшированный фрейм данных), я меняю только один этап каждый раз (сам алгоритм, логистическая регрессия, случайный лес и т. Д.), Подгоняя обученные данные + преобразование на тестовых данных, ипроверка журнала вероятностей на прогноз.я получаю его, используя также столбец испытаний, как я понимаю - этот столбец не должен изменяться конвейером, это заданное значение, просто должен измениться прогноз.что мне не хватает?

finish training data, start transform data
total liklihood for algorithm : logistic_regression
+------------------+---------+--------------------+
|            lk_sum|lk_trials|     final_liklihood|
+------------------+---------+--------------------+
|-1181.226211424361|  21855.0|-0.05404832813655278|
+------------------+---------+--------------------+

finish training data, start transform data
total liklihood for algorithm : GBTRegressor
]+------------------+---------+--------------------+
|            lk_sum|lk_trials|     final_liklihood|
+------------------+---------+--------------------+
|-794.1915302136496|  21376.0|-0.03715342113649184|
+------------------+---------+--------------------+

finish training data, start transform data
 total liklihood for algorithm : random_forest
+-------------------+---------+--------------------+
|             lk_sum|lk_trials|     final_liklihood|
+-------------------+---------+--------------------+
|-1494.7763490404889|  22509.0|-0.06640794122530938|
...