Я искал различные методы предварительной обработки, доступные в sklearn
для очистки данных.
Я хочу убедиться, что я правильно смотрю на результаты, потому что у меня возникают проблемы с концептуализацией того, чтоединица, в которой ось находится в после обработки данных.
Из сообщения здесь взято следующее:
- Средний доход в районе и;
- Количество домохозяйств в округе.
Поскольку данные представлены в разных масштабах (абсолютный доход намного больше, чем количество домохозяйств, и в подсчете домохозяйств есть выбросы)пакет sklearn.preprocessing
использовался для получения каждой функции в одинаковых масштабах.
Однако, как только данные масштабируются, какова единица масштабируемой переменной (переменных)?
Например, 1
![Ex1](https://i.stack.imgur.com/pYmJX.png)
Когда здесь используется MinMaxScaler
, каков результат Number of Households
?Я могу видеть, что это было масштабировано, однако я не уверен, как интерпретировать 0.002
... что, я полагаю, здесь означает?Но среднее значение чего, в какой единице?
Могу ли я сказать (приблизительное) среднее значение здесь: 0,002 домохозяйства?
Например, 2
![Ex2](https://i.stack.imgur.com/kSCif.png)
Когда здесь используется RobustScaler
, каков результат Number of Households
сейчас?Находится ли он в той же единице, что и MinMaxScaler
?
Могу ли я сказать (приблизительное) среднее значение здесь 0 домохозяйств?
Может быть, я что-то пропустил в документации.Тем не менее, я полагаю, что я неправильно понимаю что-то фундаментальное в отношении того, что эта обработка делает с блоком (ами) данных.
Будем признательны за любые указания.
Спасибо,