Какую базу журналов следует использовать в деревьях решений, если у меня есть узел с несколькими ветвями? - PullRequest
0 голосов
/ 03 октября 2018

Следующий вопрос меня сильно смущает.Не могли бы вы помочь мне в этом?1003 *

Если я хочу иметь узел с множеством ветвей, log2 все еще теоретически действителен?

Например, в Xgboost ввод обучающего набора должен иметь форму матрицы, я думаю, чтоозначает, что мы можем поместить только числовые значения в качестве входных данных.

Большое спасибо!

1 Ответ

0 голосов
/ 03 октября 2018

База 2 для логарифма почти наверняка, потому что нам нравится измерять энтропию в битах.Это просто соглашение, некоторые люди используют вместо этого базу e (nat вместо битов).

Я не могу говорить о Xgboost, но для дискретных задач решения энтропия входит в игру как мера производительности, а не напрямую как результатдревовидной структуры.Вы можете рассчитать информационный прирост любого разделения (используя любой коэффициент ветвления) только из определения энтропии.

Если вы ищете книгу по теории информации и вероятности, я настоятельно рекомендую MacKay (доступен полный PDF).Он охватывает довольно много машинного обучения и статистики.Деревья решений, однако, не покрыты.

...