Некоторые модели сильно зависят от распределения входных данных, например, нейронные сети или другие методы, основанные на градиенте. Некоторые модели на самом деле не заботятся о распределении, например, деревья решений, случайные леса и т. Д. c.
. Я бы посоветовал опробовать различные методы нормализации, например StandardScaler (z-счет). ) или MinMaxScaler для заданного диапазона (например, изменение масштаба на [0,0, 1,0]).
В конце нет универсального ответа, какой метод нормализации лучше всего работает, так как он зависит от проблема и сам алгоритм машинного обучения.