Должен ли я построить другую модель для каждого подмножества - PullRequest
0 голосов
/ 14 декабря 2018

У меня есть набор данных с категориальной переменной class Я пытаюсь решить регрессию проблему

Я не понимаю, должен ли я построить модель на всейнабор данных и рассмотрите переменную class как одну из входных переменных или для каждого класса, если я должен построить другую модель в целом.

Каковы общие правила, которые могут помочь мне принять решениемежду двумя подходами.

Это пример того, как мои данные выглядят как

+------------+----+-----+-----------------+
|   Class    | X1 | X2  |     Speed       |
+------------+----+-----+-----------------+
| Class1     | 12 | 123 |              10 |
| Class2     | 14 | 120 |              32 |
| Class3     | 15 |  34 |              12 |
|   .        |  . |   . |               . |
|   .        |  . |   . |               . |
|   .        |    |     |                 |
|  Class 300 | 23 |  13 |              45 |
+------------+----+-----+-----------------+

Class - входная категориальная переменная, и у меня около 300 классов.Выходная переменная Speed.Я пытаюсь предсказать скорость с переменными Class, X1, X2.

Должен ли я построить модель для каждого Class в отдельности.Поэтому, когда я знаю, что тип ввода - Class1, я выберу модель, построенную для Class1.Когда тип ввода Class2, я буду использовать модель, построенную для Class2 и так далее.Также значения в переменной Class могут повторяться, означая, что Class1 может приходить 4 раза, Class2 может приходить 8 раз и т. Д.

Другой способ, которым я думал, - это включить Class в качестве переменной и простопостроить одну модель.

Я не знаю, какой будет правильный способ для этого

1 Ответ

0 голосов
/ 14 декабря 2018

Не существует общепринятого правильного способа.Большинство людей скажут вам попробовать оба метода и использовать тот, который лучше всего работает с вашими данными.Однако следует отметить пару вещей:

  • Достаточно ли у каждого класса данных для построения точной модели?Если нет, то объединение всех классов (или некоторых похожих) может быть лучшим подходом.

  • Если вам нужно объединить классы, вам может потребоваться нормализовать ваши данные, если какой-либо издругие параметры не в аналогичном масштабе.(См. Функция масштабирования для справки.)

Трудно сказать больше, не зная природу ваших данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...