Почему XGBoost подходит медленно даже с очень маленьким набором данных? - PullRequest
0 голосов
/ 06 июля 2019

Как полный новичок в машинном обучении Python, я пытаюсь обучить модель XGBoost прогнозированию набора данных радужной оболочки (https://www.kaggle.com/uciml/iris).

В настоящее время я сосредоточен на XGBoost, пытаясь получить некоторый опыт по немуМоя первая модель поезда, на 66% набора данных, только 2 функции, никогда не завершена (прервана через 20 минут). Я также пытался сделать из нее очень маленькую выборку (5 выборок, 2 функции), но все жене могу закончить.

Подробности среды: MacBook Pro 2017 с MacOS 10.14.5, Python 3.7.3 через Anaconda Navigator 1.9.7.

# File downloaded from Kaggle Link above
iris = pd.read_csv('Iris.csv')
iris['Species'] = iris.apply(lambda r: r['Species'][5:], axis = 1)

features = iris[['PetalLengthCm', 'PetalWidthCm']]
species, labels = pd.factorize(iris['Species'])

X_train, X_test, y_train, y_test = train_test_split(features, species, test_size=0.33, random_state=42)

xgb_x_train = X_train.head()
xgb_y_train = y_train[:5]

print(xgb_x_train.shape)
print(len(xgb_y_train))
(5, 2)
5
xgbclf = xgb.XGBClassifier()
xgbclf.fit(xgb_x_train, xgb_y_train)

Iожидается, что приведенный выше код создаст обученную модель (не точно настроенную, поскольку используется только 5 выборок) за «разумное» время, т.е. менее 4-5 минут, но фаза подбора никогда не завершится.

AmЯ делаю что-то крайне неправильное, что может привести к такой высокой подгонке?

Спасибо за каждое предложение! Маттиа

1 Ответ

0 голосов
/ 06 июля 2019

Возможно, вы неправильно установили Xgboost (это случилось со мной один раз в Windows), я предлагаю попробовать переустановить, используя conda install.

Но для вашего случая вы можете попробовать загрузить свой код на Google Colab https://colab.research.google.com (они дают вам бесплатный графический процессор, и все уже установлено). Это обучение должно занять всего несколько секунд.

...