классификатор дерева решений sklearn: как контролировать максимальное количество ветвей каждого сплита - PullRequest
0 голосов
/ 06 мая 2018

Я пытаюсь закодировать задачу классификации двух классов DT, которую я использовал ранее SAS EM. Но пытаюсь сделать это в Склеарне. Целевая переменная - это категориальная категориальная переменная. Но есть несколько непрерывных независимых переменных. В SAS я мог указать «Максимальное количество филиалов» для каждого разделения. Поэтому, когда он установлен на 4, некоторые листы будут разделены на 2, а некоторые на 4 (особенно для непрерывных переменных). Я не мог найти эквивалентный параметр в sklearn. Посмотрел "max_leaf-node". Но это контролирует общее количество «листовых» узлов всего дерева. Я уверен, что некоторые из вас, вероятно, столкнулись с такой же ситуацией и уже нашли решение. Пожалуйста, помогите / поделитесь. Я действительно ценю это.

1 Ответ

0 голосов
/ 06 мая 2018

Я не думаю, что эта опция доступна в sklearn. Вы найдете эту публикацию очень полезной для вашей классификации DT; так как в нем перечислены все доступные вам варианты.

Я бы порекомендовал создать ячейки для ваших переменных продолжения; таким образом вы заставляете количество ветвей равным количеству имеющихся у вас бинов.

Пример: для непрерывной переменной COl1 имеет значения от 1 до 100; Вы можете создать 4 корзины 1-25, 26-50, 51-75, 76-100. или вы можете создать базы бинов на медиане.

...