Уменьшает ли стандартизация набора данных в машинном обучении точность? - PullRequest
0 голосов
/ 19 апреля 2020

Сначала я использовал нормальную регрессию c логистики с набором данных радужной оболочки, и это дало мне точность 0,977, а в следующий раз с предварительной обработкой набора данных я получил точность 0,955. Почему это так?

from sklearn.linear_model import LogisticRegression
import sklearn.metrics as metrics
logreg= LogisticRegression()
xtrain, xtest, ytrain, ytest= train_test_split(x,y, test_size= 0.3, random_state= 1)

logreg.fit(xtrain, ytrain)
ypred1= logreg.predict(xtest)
print(metrics.accuracy_score(ytest, ypred1))

Модель с предварительной обработкой

logreg= LogisticRegression()
xtrain, xtest, ytrain, ytest= train_test_split(x,y, test_size= 0.3, random_state= 1)

sc1 = StandardScaler()
sc1.fit(x_train)
X_train_std1 = sc1.transform(xtrain)
X_test_std1 = sc1.transform(xtest)

logreg.fit(X_train_std1, ytrain)
ypred1= logreg.predict(X_test_std1)
print(metrics.accuracy_score(ytest, ypred1))

1 Ответ

0 голосов
/ 19 апреля 2020

Уменьшает ли стандартизация набора данных в машинном обучении точность? - Короткий ответ, №

Нормализация данных в основном связана с конвергенцией, а не с точностью. Однако существуют модели, которые предполагают конкретное c распределение данных, в таких случаях нормализация может стать очень важной.

enter image description here

В случае 1, объекты не нормализованы, поэтому это немного более длинный путь для алгоритма оптимизации, для случая 2 он равен во всех направлениях, поэтому сходимость немного быстрее, но этот пример сильно применим для минимальной-максимальной нормализации единичного вектора.

Некоторые допущения логистических c регрессий:

  1. наблюдения должны быть независимыми друг от друга
  2. небольшая или отсутствие мультиколлинеарности среди независимых переменных
  3. независимые переменные линейно связаны с логарифмическими коэффициентами

Но регрессия logisti c не предполагает нормализованные данные. Таким образом, это необязательный шаг для подбора регрессионной модели логистики c.

Предполагать, что нормализация повысит точность модели, будет неправильно.

Среднее центрирование и масштабирование до единицы Дисперсия обычно полезна, но все зависит от свойств ваших данных.

Если ваши данные нерегулярны, среднее вычитание может искажать некоторые особенности в направлении, которое приводит к снижению точности, нанося ущерб любому из сильные предположения регрессии logisti c, такие как введение некоторой нелинейности из-за чисел c причин.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...