Я слежу за документацией для обучения регрессора дерева решений или моих данных (https://spark.apache.org/docs/latest/ml-classification-regression.html#decision-tree-classifier), и окончательный вывод выглядит следующим образом:
Learned regression tree model:
DecisionTreeRegressionModel (uid=dtr_ba1638819fb1) of depth 5 with 63 nodes
If (feature 41 <= 0.0)
If (feature 35 <= 5.0)
If (feature 42 <= 60.0)
If (feature 0 <= 3740051.0)
If (feature 23 <= 2.0)
Predict: 1.2777917018136313E-4
Else (feature 23 > 2.0)
Predict: 3.5522811772381764E-4
Else (feature 0 > 3740051.0)
If (feature 32 <= 1.0)
Predict: 1.0701321366121918E-4
Else (feature 32 > 1.0)
Predict: 1.2083112677997485E-4
Else (feature 42 > 60.0)
etc.
все это хорошо и здорово, но я быхотел бы иметь некоторую статистику (по крайней мере, количество примеров) в каждом узле. Скажем количество примеров, которые находятся в узле, соответствующие:
(feature 41 <= 0.0) and (feature 35 <= 5.0))
, как в scikit-learn. Я не нахожувсе, что может приблизить меня к этому в API. Помощь очень ценится!
спасибо