Как исправить randomForest, который дает OOB 100%? - PullRequest
0 голосов
/ 24 мая 2019

Я работаю над набором данных из ~ 5000 генов, которые имеют экспрессию в 6 различных ограничивающих субстратах. Они находятся в информационном кадре, в котором первый столбец дает питательное вещество (переменная отклика), а другие столбцы дают выражение для каждого другого гена (переменные предиктора). Мне нужно найти гены, которые предсказывают ограничивающий субстрат. Сначала я должен настроить алгоритм, используя ntree = 1000 и 6 значений mtry с 16 повторностями для каждого значения mtry.

Мой фрейм данных выглядит так:

experiment Q0017 Q0045 Q0050 ---- YAL032C
A          0.18  -1.19 -2.43       1.00
G          0.73  -1.34 -1.74      -0.32
|
U          0.11  -0.33  0.63       0.12

Я начал с попытки найти лучшее значение mtry с помощью следующей команды: tuneRF(d3[2:5178], d3$experiment, ntreeTry=1000, stepFactor=1.5, improve=1e-5, trace=TRUE, plot=TRUE, doBest=FALSE)

Однако, это дает ошибку OOB 100%:

mtry = 71  OOB error = 100% 
Searching left ...
mtry = 48   OOB error = 100% 
0 1e-05 
Searching right ...
mtry = 106  OOB error = 100% 
0 1e-05 
        mtry OOBError
48.OOB    48        1
71.OOB    71        1
106.OOB  106        1

Я использовал тот же метод с данными радужной оболочки, и затем я получаю правильные результаты Что я делаю неправильно?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...