Если, как видно из контекста вашего вопроса, вы намерены использовать только эти четыре функции (Genre, Source, ProductionMethod, CreativeType
) для прогнозирования Infl.Adj.Dom.BoxOffice
, то вы используете формулу R неправильно: ваше использование
Infl.Adj.Dom.BoxOffice~. -Genre -Source -ProductionMethod -CreativeType
фактически говорит: «предсказать Infl.Adj.Dom.BoxOffice
, используя все функции (.
) , за исключением Genre, Source, ProductionMethod, CreativeType
» (символ -
используется для , исключая переменных).
Итак, что на самом деле здесь происходит, так это то, что одна (или более) из ваших других функций является категориальной с более чем 53 уровнями.
Правильное использование, если вы действительно хотите использовать только эти четыре функции, которые вы упомянули, должно быть:
movies.rf <- randomForest(Infl.Adj.Dom.BoxOffice ~ Genre + Source + ProductionMethod + CreativeType, data=Movies, subset=train)