Столбец состояния дерева решений и связанный столбец числовых значений - PullRequest
0 голосов
/ 21 марта 2019

У меня есть данные, включающие два столбца, в которых один категорически показывает состояние функции, а другой численно показывает соответствующее значение.Как показано ниже:

Status & Value columns

Я хочу запустить алгоритм дерева решений с помощью scikit learn для этих данных.Я не уверен, как обращаться с этими двумя колонками, потому что концептуально я не могу понять, как связать эти очень коррелированные особенности.В принципе, мы не должны оставлять нулевые данные, однако, это должно быть нулевым в числовом столбце по своей природе.Если мы сделаем это "0", это имеет другое значение.

Итак, как мне предварительно обработать эти данные, чтобы алгоритм дерева решений работал правильно?

1 Ответ

0 голосов
/ 22 марта 2019

Мой префоссор дает разумный ответ, как показано ниже.

Сначала заполните пустые ячейки "0". Если вы включите данные в алгоритмы дерева решений с этими двумя функциями, у нас будет два случая:

  • Если «Статус» стоит первым: Дерево разделит 0 и 1 на две ветви. При значении 0 все значения Amount будут уже равны 0, поэтому эта функция не будет выбрана. До 1 не будет никакого статуса 0.

  • Если на первом месте стоит «Сумма»: все статусные 0 попадут только в одну ветку, и они объединятся с очень маленькими.

Итак, если данные Сумма зашумлены, может быть полезно сохранить столбец Статус. В противном случае я бы удалил столбец Status.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...