Соотнесенные признаки с зависимой переменной не улучшают точность регрессионной модели случайного леса - PullRequest
0 голосов
/ 20 апреля 2020

Моя модель предназначена для прогнозирования прослушивания радио в часах (в определенный день в данное время для 1 конкретной c радиостанции. Каждая строка моего тренировочного набора представляет собой 1-часовые блоки для каждого дня года и имеет немного до 30 000 записей за 3,5 года. Мои функции включают в себя такие параметры c, как дата, станция, день недели, время начала, а также информация о погоде.

Недавно я добавил 2 бинарные функции, которые, как я ожидал, будут помогают повысить точность модели, но это не так. Они определяют, проводит ли станция соревнование в определенное время (конкурсы помогают привлечь больше зрителей), и если станция играет рождественскую музыку c или нет (X-Mas musi c также имеет тенденцию привлекать аудиторию.) Когда я запускаю корреляцию Пирсона всех моих функций с моей зависимой переменной (количество часов прослушивания), эти 2 функции входят в топ-4 самых коррелированных функций (0,16 для X -Mas musi c и 0,20 для конкурсов) с самой высокой коррелированной чертой, сидящей в 0,31. Время прослушивания соревнований, как правило, удваивается, а когда играет X_mas musi c, часы, как правило, увеличиваются примерно на 50%. Интересно, что мои прогнозы также пропорционально выше, когда эти 2 функции истинны (1).

Я знаю, что эти функции не добавляют прогностическую ценность, так это то, что когда я удаляю их из набора данных для обучения модели и делать прогнозы, точность модели не улучшается. Я измеряю среднюю абсолютную ошибку, MSE и R2, чтобы оценить производительность модели.

Есть ли какие-либо идеи относительно того, почему важные свойства зависимой переменной, не очень коррелирующие с другими функциями, не помогают уменьшить ошибки?

Я управляю RF с 100 деревьями. Проблема в том, что я запускаю только одно дерево.

1 Ответ

0 голосов
/ 22 апреля 2020

Возможно, что другие функции, которые вы используете в качестве входных данных, уже достаточны для точных прогнозов. Таким образом, включение двух бинарных функций не повышает точность модели. Я бы оценил важность переменной, чтобы понять, насколько важны эти две бинарные характеристики для общего прогноза.

...