Это слишком ... долго для комментария и, следовательно, для предоставления его в ответ. Не уверен, что он отвечает на вашу проблему, но давайте разбить его на шаги:
Нормализация:
Существует множество способов нормализации данных, один из них - минимальная нормализация. (xi - min(x))/range(x)
, где xa feature и xi - это индивидуальное значение для этой функции. Нормализация помогает держать все в пределах от 0 до 1 (это может отличаться для разных нормализаций). Это помогает сравнивать объекты, которые теперь находятся в одном масштабе после нормализации.
Нормализация столбцов:
Что ж, нормализация столбцов связана с нормализацией объектов независимо друг от друга. Нормализация столбцов является более распространенной и значимой, когда мы используем PCA, kmeans или другие алгоритмы, иногда она также помогает моделям быстрее сходиться при использовании в процессе глубокого изучения.
Нормализация рядов:
Теперь нормализация рядов несколько деликатна и обычно не так распространена, если у вас нет данных, подобных подсчетам, другими словами, ваши функции не имеют единиц измерения , хотя следует соблюдать осторожность, если у вас есть разные устройства для разных функций. Случаи, когда объекты имеют разные единицы измерения, могут не подходить для нормализации строк. В качестве примера можно привести, например, данные, содержащие множество выборок, где каждая выборка представлена в строках, и предположим, что выборка распределена по следующим 5 объектам / группам, поэтому в этом случае нормализация строк поможет понять элемент / группу доля данного образца.
Нормализация в столбце будет содержать информацию в целости, но иногда в строке это не так. Например, в заданных данных, если измерять возраст клиента и доход как функции, теперь, если вы нормализуете его по столбцу, шаблон, в котором клиент А моложе или старше и / или больше дохода или меньше дохода, будет сохраняться после нормализации столбца по сравнению с клиент Б, но это может не удержаться, если вы выполните нормализацию строки (что является своего рода потерей информации).
Это хорошо объяснено здесь