Статистика узлов в искровых MLLIB - PullRequest
0 голосов
/ 27 июня 2019

Я слежу за документацией для обучения регрессора дерева решений или моих данных (https://spark.apache.org/docs/latest/ml-classification-regression.html#decision-tree-classifier), и окончательный вывод выглядит следующим образом:

Learned regression tree model:
 DecisionTreeRegressionModel (uid=dtr_ba1638819fb1) of depth 5 with 63 nodes
  If (feature 41 <= 0.0)
   If (feature 35 <= 5.0)
    If (feature 42 <= 60.0)
     If (feature 0 <= 3740051.0)
      If (feature 23 <= 2.0)
       Predict: 1.2777917018136313E-4
      Else (feature 23 > 2.0)
       Predict: 3.5522811772381764E-4
     Else (feature 0 > 3740051.0)
      If (feature 32 <= 1.0)
       Predict: 1.0701321366121918E-4
      Else (feature 32 > 1.0)
       Predict: 1.2083112677997485E-4
    Else (feature 42 > 60.0)
etc.

все это хорошо и здорово, но я быхотел бы иметь некоторую статистику (по крайней мере, количество примеров) в каждом узле. Скажем количество примеров, которые находятся в узле, соответствующие:

(feature 41 <= 0.0) and (feature 35 <= 5.0))

, как в scikit-learn. Я не нахожувсе, что может приблизить меня к этому в API. Помощь очень ценится!

спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...