случайные лесные вариации - PullRequest
0 голосов
/ 04 июня 2018

У меня есть следующий фрейм данных.Я хотел бы знать, какие бактерии вносят больший вклад при сравнении местоположения бактерий (категориальный) и его pH (числовой).

Например, в конце я хотел бы сказать, например, что определенный тип бактерийЧаще встречается в определенном месте, когда смотрит на температуру.

             Bacillus Lactobacillus Janibacter Brevibacterium Lawsonella     Location temperature
Sample1              2          30    164          8             21         48 bedroom    27
Sample2              0         211      0        996            195        108 bedroom   35
Sample3              1         938      1         21             38         43 pool   45
Sample4              0          95     17          1              4        334 pool   10
Sample5              0         192     91         25           1207       1659 soil    14
Sample6              0          12     33          6             12        119 soil   21
Sample7              0          16      3          0              0        805 soil    12

Идея состоит в том, чтобы запустить случайный лес, чтобы выбрать те функции (бактерии), которые более важны, если смотреть как на местоположение, так и на температуру.

Подходит ли для этого случайный лес?Когда я запускаю команду follozinw, я получаю следующую ошибку:

randomForest(Location+Temperature ~.,data=mydf)
Error in Location + Temperature : non-numeric argument to binary operator. 

Из этой ошибки видно, что я не могу использовать непрерывную и категориальную переменную вместе.Как я могу это исправить ?

Например, можно ли преобразовать числовую переменную температуры в диапазоны температур, поскольку категориальные переменные могут быть решением?

На самом деле я пытался, и это работало путем преобразования числовой температуры в диапазоны и вставкиместоположение, так что у меня есть комбинация местоположения и температуры.

randomForest(Location_temperature ~.,data=dat)

Я получаю список важных бактерий, который я искал.Теперь, как я могу узнать, какой из них вносит больший вклад в то или иное местоположение, так как моя модель использовала все сайты?Например, как проверить, что ваши важные переменные (скажем, Bacillus является наиболее важной из модели randomforest) важны для местоположения пула (насколько вариативность объясняется в пуле) ??

Надеюсьясно ....

...