Дерево решений: эффективное разделение узлов, минимизация количества оценок Джини - PullRequest
0 голосов
/ 29 октября 2018

У меня есть проблема с набором данных, где мне нужно использовать функцию разделения, отличную от gini_index. Это требует от меня переписать дерево решений с нуля. У меня есть рабочая модель, но она крайне неэффективна.

Чтобы выполнить разделение, я в настоящее время выполняю итерацию через каждый объект, а затем через каждый уникальный набор данных в этом наборе данных для каждого узла (всего узлов x функций x уникальных уровней оценки Джини). Причиной этого является то, что мой DT на наборе данных 300k X 145 работает в течение 2 дней.

Как я могу сократить количество оценок разбиения или ускорить программу. Я прочитал алгоритм Фишера Йейтса в коде Склина, но я не понимаю логику. Любая помощь будет оценена.

...