Question

Я использую кластер Databricks 5.3 ML, который включает в себя Apache Spark 2.4.0, Scala 2.11.Однако я только знаком с Python и, следовательно, мне нужно решение с использованием PySpark.

Я пытаюсь реализовать подход к расчету стоимости жизни клиента с помощью следующих шагов:

вычислить вероятность покупки (двоичная классификация)
добавить прогнозы вероятности от предыдущего шага к набору функций
вычислить значение времени жизни с регрессиеймодель

Набор функций - это резервный вектор, созданный с помощью конвейера, который включает VectorAssembler.Для вероятности покупки я использую pyspark.ml.classification.RandomForestClassifier.

Выходные данные RandomForestClassifier включают вероятности в виде вектора:

[1,2,[],[0.8542111881152473,0.14578881188475268]]

и схему:

root
 |-- probability: vector (nullable = true)

Какой самый простой способ добавить выходные данные вероятности RandomForestClassifier в набор функций для создания окончательного набора функций для регрессионной модели?
Должен ли я выяснить, как сначала разделить / взорвать вектор вероятности, чтобы извлечь только вероятности?Я думаю, что нашел здесь подходящие решения для SO.
Если мне нужно сначала взорвать вектор, каков наилучший способ добавить значения вероятности к существующему вектору признаков?

pyspark: добавление вероятностного вывода RandomForestClassifier к вектору объектов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

pyspark: добавление вероятностного вывода RandomForestClassifier к вектору объектов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы