Существует несколько способов выбора атрибута. И не все они выбирают значения в наборе данных.
Обычный (хотя и немного упрощенный) метод - взять среднее. Вполне возможно, что 3.76179 ... является средним значением всех атрибутов2 вашего набора данных.
Например, если ваш набор данных является одномерным и состоит из значения -10, -9, .. -2, -1, 1, 2, ..9, 10
, тогда хорошим значением разбиения будет 0
, даже если его нет в вашем наборе данных.
Другая возможность, особенно если вы имеете дело со случайными лесами (несколькими деревьями решений), заключается в том, что значение расщепления выбирается случайным образом, а распределение вероятностей сосредоточено вокруг медианного значения. Некоторые алгоритмы решают разделить в соответствии с гауссианой по центру среднего значения / медианы и с отклонением, равным стандартному отклонению набора данных.