Если время обучения имеет значение, тогда можно переключить политику роста деревьев tree_method
на hist
, что является методом на основе гистограммы. С графическим процессором он должен быть установлен на gpu_hist
. Вы можете найти более подробную информацию о его реализации xgboost здесь http://arxiv.org/abs/1603.02754
Это секретный соус, который приводит к супер быстрой тренировке без особых компромиссов в качестве решения. На самом деле обучение на GPU и даже lightGBM et c основаны на методах, основанных на гистограмме, для более быстрой тренировки и последующих итераций / экспериментов, что очень важно во время соревнований типа kaggle с ограниченным временем. hist
может сократить время обучения до половины или меньше, а gpu_hist
на графическом процессоре может занять несколько минут.
PS: Я бы предложил уменьшить размерность ваших данных (16k X 180k), удалив коррелированные / ранговые корреляционные функции, которые в дальнейшем улучшат не только ваше время тренировки, но и производительность модели.