Что касается RandomTree в Weka - PullRequest
2 голосов
/ 31 января 2011

Я играл с weka, когда наблюдал поле minNum в конфигурации RandomTree. Я прочитал описание, в котором говорилось «Минимальный общий вес экземпляров в листе». Однако я не мог понять, что это значит.

Я поигрался с этим числом и понял, что при его увеличении размер сгенерированного дерева уменьшается. Я не мог соотнести, почему это происходит.

Любая помощь / ссылки будут оценены.

1 Ответ

2 голосов
/ 18 мая 2011

Это связано с минимальным количеством экземпляров на листовом узле (которое часто равно 2 по умолчанию в деревьях решений, например, J48).Чем выше вы установите этот параметр, тем более общим будет дерево, поскольку наличие множества листьев с небольшим числом экземпляров дает слишком гранулированную древовидную структуру.

Вот два примера набора данных iris, который показываеткак опция -M может повлиять на размер результирующего дерева:

$ weka weka.classifiers.trees.RandomTree -t iris.arff -i

petallength < 2.45 : Iris-setosa (50/0)
petallength >= 2.45
|   petalwidth < 1.75
|   |   petallength < 4.95
|   |   |   petalwidth < 1.65 : Iris-versicolor (47/0)
|   |   |   petalwidth >= 1.65 : Iris-virginica (1/0)
|   |   petallength >= 4.95
|   |   |   petalwidth < 1.55 : Iris-virginica (3/0)
|   |   |   petalwidth >= 1.55
|   |   |   |   sepallength < 6.95 : Iris-versicolor (2/0)
|   |   |   |   sepallength >= 6.95 : Iris-virginica (1/0)
|   petalwidth >= 1.75
|   |   petallength < 4.85
|   |   |   sepallength < 5.95 : Iris-versicolor (1/0)
|   |   |   sepallength >= 5.95 : Iris-virginica (2/0)
|   |   petallength >= 4.85 : Iris-virginica (43/0)

Size of the tree : 17

$ weka weka.classifiers.trees.RandomTree -M 6 -t iris.arff -i

petallength < 2.45 : Iris-setosa (50/0)
petallength >= 2.45
|   petalwidth < 1.75
|   |   petallength < 4.95
|   |   |   petalwidth < 1.65 : Iris-versicolor (47/0)
|   |   |   petalwidth >= 1.65 : Iris-virginica (1/0)
|   |   petallength >= 4.95 : Iris-virginica (6/2)
|   petalwidth >= 1.75
|   |   petallength < 4.85 : Iris-virginica (3/1)
|   |   petallength >= 4.85 : Iris-virginica (43/0)

Size of the tree : 11

В качестве идентификатора, случайные деревья полагаются на мешки, что означает, что есть подвыборка атрибутов (K случайным образом выбирается для разделения на каждом узле);однако, в отличие от REPTree, здесь нет обрезки (как в RandomForest), поэтому вы можете получить очень шумные деревья.

...