Могу ли я использовать переменную как объясняющую переменную, если она используется для разработки зависимой переменной? - PullRequest
0 голосов
/ 28 апреля 2019

Я пытаюсь создать 3 модели классификации: наивный байесовский, случайный лес и SVM.

Переменная, которую я пытаюсь предсказать, это Film Verdict с категориями «хит» или «флоп».Я разработал значения этой переменной с помощью формулы Доход / Бюджет, где, если значение этой формулы было 1+, оно классифицировалось как попадание или провал.

У меня такой вопрос: поскольку я использовал Доход и бюджет для создания переменной «Приговор фильма», могу ли я использовать эти два в качестве части объясняющих / независимых переменных в моих моделях?

Пояснение: Iесть несколько других переменных, таких как ActorRating, Tweet Polarity и т. д., которые также используются в качестве входных переменных.

Ответы [ 2 ]

0 голосов
/ 28 апреля 2019

Их коэффициент корреляции будет высоким, поэтому не должен использоваться.

0 голосов
/ 28 апреля 2019

Да, вы можете. Все, что будет доступно вам, когда вы predict, может быть использовано. Однако в вашем примере модель будет очень простой, и выходная переменная может быть очень легко получена из входных переменных.

Мало что вы можете прочитать подробнее:

  • Data Leakage: использование чего-то из теста в поезде
  • Heteroscedasticity: когда подгруппы имеют отличия от других
  • Collinearity: высокая корреляция между независимыми переменными
  • Overfitting: насколько хорошо модель ведет себя между поездом и испытанием

Некоторые алгоритмы лишены некоторых проблем, поэтому знание этого поможет вам найти лучший.

...