как преобразовать эту цифру c непрерывную в цифру c категориальную?
Если результат будет таким же, понадобится ли вам это?
например, если пол является одной из моих независимых переменных, конвертируется мужчина в 1, а женщина в 0. Когда я использую это в дереве решений, узел разделяется на 0,5, что не имеет смысла.
Возможно, я ошибаюсь, но для меня это разделение имеет смысл.
Допустим, у нас есть дерево решений с категоричным правилом разделения. Делением будет двоичное деление, означающее «0» слева и «1» справа (в данном случае).
Теперь, как мы можем оптимизировать это правило деления? Вместо поиска, если значение равно «0» или «1», мы можем использовать одно действие для замены этих двух проверок. «0» осталось, а все остальное верно. Теперь мы можем заменить эту же проверку из категории на число с плавающей запятой, <0,5 слева, в противном случае - справа. </p>
В коде это будет так просто:
Случай 1:
if value == "0":
tree.left()
elif value == "1":
tree.right()
else:
pass # if you work with binary, this will never happen, so its useless
Дело 2:
if value == "0":
tree.left()
else:
tree.right()
Дело 3:
if value < 0.5:
tree.left()
else:
tree.right()