scikit-Learn, категориальные (но числовые) функции в линейной регрессии - PullRequest
0 голосов
/ 24 апреля 2020

Я использую линейную регрессию в scikit-learn, и мой набор данных содержит некоторые категорические, но числовые особенности. Я имею в виду, что есть такие особенности, как значение района, в котором находится дом, которые выражаются целым числом от 1 до 7: чем больше это число, тем больше ценность дома. Должен ли я предварительно обработать функцию, которая выражает категорию (район города), используя числа перед линейной регрессией, с помощью кодировщиков, таких как OneHotEncoder? Или это обязательно только тогда, когда категория выражается символами? Заранее спасибо ..

1 Ответ

0 голосов
/ 24 апреля 2020

Если я правильно понимаю, вам не нужно горячо кодировать их, так как они являются порядковыми, то есть в заказе есть смысл. Если бы числа были, например, кодами продуктов, и не было смысла в том, чтобы 7 было «лучше, чем» или «больше, чем» 4, то вы бы хотели в одно касание кодировать эти переменные, но в этом случае вы потеряли бы информацию по горячему кодированию.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...