как рассчитать индекс Джини для алгоритма CART, когда все данные числовые c? - PullRequest
0 голосов
/ 05 мая 2020

У меня проблемы с алгоритмом классификации CART,

мои данные выглядят так, вопрос в том, как я могу рассчитать «степень разделения», используя индекс GINI, когда все данные числовые c?

Числовой набор данных

1 Ответ

0 голосов
/ 05 мая 2020

Индекс Джини работает для категориальных данных и измеряет степень или вероятность того, что конкретная переменная будет неправильно классифицирована при ее случайном выборе. Поэтому для дерева мы выбираем функцию с наименьшим индексом Джини.

Теперь в В вашем случае у нас есть числовые данные, поэтому выбор функции для разделения выполняется с элементами выше порогового значения.

Для вычисления порога отсортируйте числовые характеристики в порядке возрастания и попробуйте каждое значение в качестве порога и вычислите информационный прирост для каждого значения в качестве порога. Значение в качестве порога с максимальным приростом информации будет вашим порогом.

...