Я использую кластер Databricks 5.3 ML, который включает в себя Apache Spark 2.4.0, Scala 2.11.Однако я только знаком с Python и, следовательно, мне нужно решение с использованием PySpark.
Я пытаюсь реализовать подход к расчету стоимости жизни клиента с помощью следующих шагов:
вычислить вероятность покупки (двоичная классификация)
добавить прогнозы вероятности от предыдущего шага к набору функций
вычислить значение времени жизни с регрессиеймодель
Набор функций - это резервный вектор, созданный с помощью конвейера, который включает VectorAssembler
.Для вероятности покупки я использую pyspark.ml.classification.RandomForestClassifier
.
Выходные данные RandomForestClassifier включают вероятности в виде вектора:
[1,2,[],[0.8542111881152473,0.14578881188475268]]
и схему:
root
|-- probability: vector (nullable = true)
Какой самый простой способ добавить выходные данные вероятности RandomForestClassifier в набор функций для создания окончательного набора функций для регрессионной модели?
Должен ли я выяснить, как сначала разделить / взорвать вектор вероятности, чтобы извлечь только вероятности?Я думаю, что нашел здесь подходящие решения для SO.
Если мне нужно сначала взорвать вектор, каков наилучший способ добавить значения вероятности к существующему вектору признаков?