Вся идея масштабирования состоит в том, чтобы сделать модели более устойчивыми к анализу в пространстве признаков. Например, если у вас есть 2
функции как 5 Kg
и 5000 gm
, мы знаем, что оба они одинаковы, но для некоторого алгоритма, который sensitive
метрического пространства, такого как KNN
, PCA
и т. Д., Они будет уделять больше внимания вторым функциям, поэтому для этих алгоритмов необходимо выполнить масштабирование.
Теперь перейдем к вашему вопросу,
- Масштабирование не влияет на значимость функций. Как я объяснил выше, это помогает лучше анализировать данные.
- Нет, вы не должны этого делать, причина объяснена выше.
- Если вы хотите включить знания о предметной области в свою модель, вы можете использовать ее в качестве предварительной информации. Короче говоря, для линейной модели это то же самое, что и
regularization
. У этого есть очень хорошие особенности. если вы думаете, что у вас много useless-features
, вы можете использовать L1
регуляризацию, которая создает эффект sparse
для пространства объектов, что является ничем иным, как назначением 0
веса бесполезным функциям. Вот ссылка для more-info .
Еще один момент, некоторые методы, такие как модель на основе tree
, не нуждаются в масштабировании. Наконец, в основном это зависит от выбранной вами модели.