список алгоритмов scikit-learn, требующих стандартизации / нормализации - PullRequest
0 голосов
/ 09 сентября 2018

Может ли кто-нибудь предоставить, пожалуйста, список всех алгоритмов, для которых необходимо стандартизировать или нормализовать данные перед использованием? Или кто-то, пожалуйста, скажите мне пример, где я могу найти его в документации scikit-learn.

1 Ответ

0 голосов
/ 09 сентября 2018

В большинстве случаев масштабирование функции означает, что:
1. Сделайте средние значения всех объектов не слишком большими (скажем, 0)
2. Сделать дисперсию всех признаков примерно одинаковой (скажем, 1)

Так что ваш вопрос можно задать немного по-другому:
1) какие алгоритмы зависят от абсолютных значений, близких к нулю?
2) какие алгоритмы требуют, чтобы значения были распределены сравнительно?
3) какие алгоритмы используют регуляризацию, которая наказывает экстремальные веса функций?

1-й пункт тесно связан с функциями активации в ANN, который имеет максимальные способности к обучению около нуля (сигмоид, танх, релю) благодаря производным.

2-й и 3-й пункты связаны с равенством весов различных признаков.

В целом, из-за 2-го и 3-го пунктов вы всегда должны делать масштабирование. Исключением являются деревья решений, в которых не используются ни общие метрики с различными характеристиками, ни какие-либо предположения о среднем значении, и поэтому они могут использоваться без масштабирования.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...