pyspark: добавление вероятностного вывода RandomForestClassifier к вектору объектов - PullRequest
0 голосов
/ 28 апреля 2019

Я использую кластер Databricks 5.3 ML, который включает в себя Apache Spark 2.4.0, Scala 2.11.Однако я только знаком с Python и, следовательно, мне нужно решение с использованием PySpark.

Я пытаюсь реализовать подход к расчету стоимости жизни клиента с помощью следующих шагов:

  • вычислить вероятность покупки (двоичная классификация)

  • добавить прогнозы вероятности от предыдущего шага к набору функций

  • вычислить значение времени жизни с регрессиеймодель

Набор функций - это резервный вектор, созданный с помощью конвейера, который включает VectorAssembler.Для вероятности покупки я использую pyspark.ml.classification.RandomForestClassifier.

Выходные данные RandomForestClassifier включают вероятности в виде вектора:

[1,2,[],[0.8542111881152473,0.14578881188475268]]

и схему:

root
 |-- probability: vector (nullable = true)
  • Какой самый простой способ добавить выходные данные вероятности RandomForestClassifier в набор функций для создания окончательного набора функций для регрессионной модели?

  • Должен ли я выяснить, как сначала разделить / взорвать вектор вероятности, чтобы извлечь только вероятности?Я думаю, что нашел здесь подходящие решения для SO.

  • Если мне нужно сначала взорвать вектор, каков наилучший способ добавить значения вероятности к существующему вектору признаков?

...