Переменная, которая применяется только к подмножеству данных - PullRequest
0 голосов
/ 11 ноября 2019

Я использую общедоступный набор данных, доступный по этой ссылке.

Речь идет о маркетинге, и одна из переменных (pdays, числовая) относится к числу дней, прошедших после того, как клиент былпоследний контакт из предыдущей кампании.

Строки, значение которых равно 999, означает, что с клиентом ранее не связывались. Я боюсь, что использование этого в алгоритме ML приведет к неверным результатам.

Я думаю об их обнулении. Но я не знаю, что делать с нулями при масштабировании набора данных перед использованием алгоритма (следует ли учитывать нули?).

Есть ли лучшее решение?

1 Ответ

1 голос
/ 11 ноября 2019

Я думаю, что вы правы в отношении установки этого значения в 0, но лучше всего здесь также определять новую двоичную переменную. Вы можете назвать эту переменную как «Не ранее связывался», и для каждого наблюдения значения 999 присвойте новую переменную значение 1, обозначающее, что с клиентом ранее не связывались, в противном случае - 0.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...