Как контролировать независимую переменную в логистической регрессии? - PullRequest
0 голосов
/ 21 января 2019

Я пытаюсь предсказать рейтинг популярности Spotify, используя ряд алгоритмов машинного обучения в пакете R Caret, включая логистическую регрессию.Цель состоит в том, чтобы предсказать популярность трека на основе аудиофункций, например танцевальности, энергии и т. Д. У меня есть проблема в том, что Spotify не прозрачен в отношении того, как рассчитывается рейтинг популярности, но я знаю, что он основан на ряде факторов, включая количество игр иПоследний трек есть.Это означает, что количество выпущенных дней будет влиять на показатель популярности, поэтому я включил days_released в качестве независимой переменной в моё моделирование, чтобы попытаться контролировать его.

Итак, у меня 50 переменных (days_released является одной из них).Я использую функцию rfe в Caret для выполнения выбора функции, но для каждого алгоритма days_released является единственной выбранной переменной.У кого-нибудь есть совет или рекомендуемое чтение о том, как преодолеть эту проблему?Я хочу предсказать популярность и выяснить, какие функции треков имеют существенную связь с популярностью, контролируя для days_released.

Я вообще вынимаю переменную days_released?

Оставляю ли я ее, но форсирую rfeвыбрать более одной функции?

Любая помощь будет высоко ценится!Заранее спасибо!

...