XGBoost в Databricks с Python - PullRequest
       10

XGBoost в Databricks с Python

0 голосов
/ 07 февраля 2019

Так что недавно я работал с кластером Mlib Databricks и увидел, что согласно документации XGBoost доступен для моей кластерной версии (5.1).Этот кластер работает под управлением Python 2.

У меня такое ощущение, что XGBoost4J доступен только для Scala и Java. Итак, мой вопрос: как мне импортировать модуль xgboost в эту среду, не теряя возможности распространения?

Пример моего кода ниже

from pyspark.ml import Pipeline
from pyspark.ml.feature import StringIndexer
from pyspark.ml.feature import VectorAssembler
import xgboost as xgb # Throws error because module is not installed and it should

# Transform class to classIndex to make xgboost happy
stringIndexer = StringIndexer(inputCol="species", outputCol="species_index").fit(newInput)
labelTransformed = stringIndexer.transform(newInput).drop("species")

# Compose feature columns as vectors
vectorCols = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species_index"]
vectorAssembler = VectorAssembler(inputCols=vectorCols, outputCol="features")
xgbInput = vectorAssembler.transform(labelTransformed).select("features", "species_index")

Ответы [ 2 ]

0 голосов
/ 18 августа 2019

Соответствующий запрос на получение, кстати, можно найти здесь

0 голосов
/ 09 марта 2019

Вы можете попробовать использовать spark-sklearn для распространения версии xgboost на python или scikit-learn, но этот дистрибутив отличается от дистрибутива xgboost4j.Я слышал, что api pyspark для xgboost4j на кирпичах данных идет, так что следите за обновлениями.

...