Это связано с минимальным количеством экземпляров на листовом узле (которое часто равно 2 по умолчанию в деревьях решений, например, J48).Чем выше вы установите этот параметр, тем более общим будет дерево, поскольку наличие множества листьев с небольшим числом экземпляров дает слишком гранулированную древовидную структуру.
Вот два примера набора данных iris
, который показываеткак опция -M
может повлиять на размер результирующего дерева:
$ weka weka.classifiers.trees.RandomTree -t iris.arff -i
petallength < 2.45 : Iris-setosa (50/0)
petallength >= 2.45
| petalwidth < 1.75
| | petallength < 4.95
| | | petalwidth < 1.65 : Iris-versicolor (47/0)
| | | petalwidth >= 1.65 : Iris-virginica (1/0)
| | petallength >= 4.95
| | | petalwidth < 1.55 : Iris-virginica (3/0)
| | | petalwidth >= 1.55
| | | | sepallength < 6.95 : Iris-versicolor (2/0)
| | | | sepallength >= 6.95 : Iris-virginica (1/0)
| petalwidth >= 1.75
| | petallength < 4.85
| | | sepallength < 5.95 : Iris-versicolor (1/0)
| | | sepallength >= 5.95 : Iris-virginica (2/0)
| | petallength >= 4.85 : Iris-virginica (43/0)
Size of the tree : 17
$ weka weka.classifiers.trees.RandomTree -M 6 -t iris.arff -i
petallength < 2.45 : Iris-setosa (50/0)
petallength >= 2.45
| petalwidth < 1.75
| | petallength < 4.95
| | | petalwidth < 1.65 : Iris-versicolor (47/0)
| | | petalwidth >= 1.65 : Iris-virginica (1/0)
| | petallength >= 4.95 : Iris-virginica (6/2)
| petalwidth >= 1.75
| | petallength < 4.85 : Iris-virginica (3/1)
| | petallength >= 4.85 : Iris-virginica (43/0)
Size of the tree : 11
В качестве идентификатора, случайные деревья полагаются на мешки, что означает, что есть подвыборка атрибутов (K случайным образом выбирается для разделения на каждом узле);однако, в отличие от REPTree, здесь нет обрезки (как в RandomForest), поэтому вы можете получить очень шумные деревья.