У меня есть следующий фрейм данных.Я хотел бы знать, какие бактерии вносят больший вклад при сравнении местоположения бактерий (категориальный) и его pH (числовой).
Например, в конце я хотел бы сказать, например, что определенный тип бактерийЧаще встречается в определенном месте, когда смотрит на температуру.
Bacillus Lactobacillus Janibacter Brevibacterium Lawsonella Location temperature
Sample1 2 30 164 8 21 48 bedroom 27
Sample2 0 211 0 996 195 108 bedroom 35
Sample3 1 938 1 21 38 43 pool 45
Sample4 0 95 17 1 4 334 pool 10
Sample5 0 192 91 25 1207 1659 soil 14
Sample6 0 12 33 6 12 119 soil 21
Sample7 0 16 3 0 0 805 soil 12
Идея состоит в том, чтобы запустить случайный лес, чтобы выбрать те функции (бактерии), которые более важны, если смотреть как на местоположение, так и на температуру.
Подходит ли для этого случайный лес?Когда я запускаю команду follozinw, я получаю следующую ошибку:
randomForest(Location+Temperature ~.,data=mydf)
Error in Location + Temperature : non-numeric argument to binary operator.
Из этой ошибки видно, что я не могу использовать непрерывную и категориальную переменную вместе.Как я могу это исправить ?
Например, можно ли преобразовать числовую переменную температуры в диапазоны температур, поскольку категориальные переменные могут быть решением?
На самом деле я пытался, и это работало путем преобразования числовой температуры в диапазоны и вставкиместоположение, так что у меня есть комбинация местоположения и температуры.
randomForest(Location_temperature ~.,data=dat)
Я получаю список важных бактерий, который я искал.Теперь, как я могу узнать, какой из них вносит больший вклад в то или иное местоположение, так как моя модель использовала все сайты?Например, как проверить, что ваши важные переменные (скажем, Bacillus является наиболее важной из модели randomforest) важны для местоположения пула (насколько вариативность объясняется в пуле) ??
Надеюсьясно ....