в чем смысл бинов lightgbm? - PullRequest
       84

в чем смысл бинов lightgbm?

0 голосов
/ 27 сентября 2018

Я использую lightgbm для недавнего соревнования по прогнозированию, я впервые использую эту модель дерева решений, и я начинаю машинное обучение, когда я тренирую модель, чтобы соответствовать данным,Я получил результаты ниже:

[LightGBM] [Info] Total Bins 3499
[LightGBM] [Info] Number of data: 595192, number of used features: 25
/Users/Jame/anaconda3/lib/python3.6/site- 
packages/lightgbm/basic.py:725: UserWarning: categorical_feature in 
param dict is overridden.
warnings.warn('categorical_feature in param dict is overridden.')
[LightGBM] [Warning] Unknown parameter: vebose
[1] valid_0's multi_logloss: 2.35527
 Training until validation scores don't improve for 50 rounds.
[2] valid_0's multi_logloss: 2.31477
[3] valid_0's multi_logloss: 2.27614
[4] valid_0's multi_logloss: 2.23926
[5] valid_0's multi_logloss: 2.20397
[6] valid_0's multi_logloss: 2.16997
[7] valid_0's multi_logloss: 2.1372
[8] valid_0's multi_logloss: 2.10566
[9] valid_0's multi_logloss: 2.07528

, как вы можете видеть из первой строки, что означает Bins в lightgbm, где я могу получить подробности, перейти к бумаге folightgbm ??

Большое спасибо!

Ответы [ 2 ]

0 голосов
/ 11 декабря 2018

Как новичок, я не думаю, что вам нужно много думать о параметре max_bin.

LightGBM оптимизирует хранение набора данных в зависимости от двоичной мощности параметра max_bin.Например, max_bin = 255 позволяет использовать 8 бит для хранения одного значения.Для max_bin = 63 потребуется всего 6 бит, а для max_bin = 15 потребуется всего 4 бита.Такая оптимизация позволяет обучать большие наборы данных с небольшим объемом памяти, например Higgs 10M с 63 бинами на графическом процессоре, использующем только 611 МБ ОЗУ.По умолчанию 255 (по умолчанию 16 для графического процессора).

0 голосов
/ 12 октября 2018

Это на самом деле относится к параметру max_bin.Параметр управляет тем, как ваши данные разбиваются на корзины перед началом обучения.По умолчанию это 255, я бы порекомендовал вам в последний раз настроить этот параметр.Этот параметр еще нужно пояснить, но он не будет иметь отношения к вашему вопросу.

Подробное слово, о котором вы спрашиваете, просто говорит вам, сколько существует наборов данных, прежде чем приступить к обучению модели.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...