Я работаю над набором данных из ~ 5000 генов, которые имеют экспрессию в 6 различных ограничивающих субстратах. Они находятся в информационном кадре, в котором первый столбец дает питательное вещество (переменная отклика), а другие столбцы дают выражение для каждого другого гена (переменные предиктора). Мне нужно найти гены, которые предсказывают ограничивающий субстрат. Сначала я должен настроить алгоритм, используя ntree = 1000 и 6 значений mtry с 16 повторностями для каждого значения mtry.
Мой фрейм данных выглядит так:
experiment Q0017 Q0045 Q0050 ---- YAL032C
A 0.18 -1.19 -2.43 1.00
G 0.73 -1.34 -1.74 -0.32
|
U 0.11 -0.33 0.63 0.12
Я начал с попытки найти лучшее значение mtry с помощью следующей команды:
tuneRF(d3[2:5178], d3$experiment, ntreeTry=1000, stepFactor=1.5, improve=1e-5, trace=TRUE, plot=TRUE, doBest=FALSE)
Однако, это дает ошибку OOB 100%:
mtry = 71 OOB error = 100%
Searching left ...
mtry = 48 OOB error = 100%
0 1e-05
Searching right ...
mtry = 106 OOB error = 100%
0 1e-05
mtry OOBError
48.OOB 48 1
71.OOB 71 1
106.OOB 106 1
Я использовал тот же метод с данными радужной оболочки, и затем я получаю правильные результаты Что я делаю неправильно?