Как запустить цикл, чтобы использовать немасштабированные и масштабированные данные в цикле Python for - PullRequest
0 голосов
/ 06 июня 2018

У меня есть следующий код, выполняющий и подгоняющий модель к данным радужной оболочки, используя различные методы моделирования.Как я могу добавить второй шаг в этом процессе, чтобы продемонстрировать улучшение между использованием масштабированных и немасштабированных данных?

Мне не нужно запускать масштабное преобразование вне цикла, я простомного проблем с преобразованием типа данных из pandas dataframe в массив np и обратно.

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.cross_validation import KFold
from sklearn.linear_model import LogisticRegression
from sklearn import svm
from sklearn.metrics import accuracy_score

iris = datasets.load_iris()
X = iris.data[:, :2]  # we only take the first two features.
y = iris.target


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2)


sc = StandardScaler()
X_train_scale = sc.fit_transform(X_train)
X_test_scale = sc.transform(X_test)

numFolds = 10
kf = KFold(len(y_train), numFolds, shuffle=True)

# These are "Class objects". For each Class, find the AUC through
# 10 fold cross validation.
Models = [LogisticRegression, svm.SVC]
params = [{},{}]

for param, Model in zip(params, Models):
    total = 0
    for train_indices, test_indices in kf:

        train_X = X_train[train_indices]; train_Y = y_train[train_indices]
        test_X = X_train[test_indices]; test_Y = y_train[test_indices]

        reg = Model(**param)
        reg.fit(train_X, train_Y)
        predictions = reg.predict(test_X)
        total += accuracy_score(test_Y, predictions)
    accuracy = total / numFolds

    print ("CV accuracy score of {0}: {1}".format(Model.__name__, round(accuracy, 6)))

Так что в идеале мой вывод должен быть:

CV standard accuracy score of LogisticRegression: 0.683333
CV scaled accuracy score of LogisticRegression: 0.766667
CV standard accuracy score of SVC: 0.766667
CV scaled accuracy score of SVC: 0.783333

Кажется, что это неясноЯ пытаюсь перебрать масштабированные и немасштабированные данные, подобно тому, как я перебираю различные алгоритмы ML.

Ответы [ 2 ]

0 голосов
/ 19 июля 2018

Я хотел продолжить это.Я смог сделать это, создав конвейер и используя gridsearchCV

pipe = Pipeline([('scale', StandardScaler()), 
                 ('clf', LogisticRegression())])
param_grid = [{
        'scale':[None,StandardScaler()],
        'clf':[SVC(),LogisticRegression()]}]
grid_search = GridSearchCV(pipe, param_grid=param_grid,n_jobs=-1, verbose=1 )

В итоге это дало мне результаты, которые я хотел, и смог легко проверить, как работать между масштабированием и отсутствием масштабирования.

0 голосов
/ 06 июня 2018

попробуйте это:

from __future__ import division

for param, Model in zip(params, Models):
    total = 0
    for train_indices, test_indices in kf:
        train_X = X_train[train_indices]; train_Y = y_train[train_indices]
        test_X = X_train[test_indices]; test_Y = y_train[test_indices]
        reg = Model(**param)
        reg.fit(train_X, train_Y)
        predictions = reg.predict(test_X)
        total += accuracy_score(test_Y, predictions)
        accuracy = total / numFolds
        print ("CV accuracy score of {0}: {1}".format(Model.__name__, round(accuracy, 6)))

        # added to your code
        if previous_accuracy:
           improvement = 1 - (accuracy / previous_accuracy)
           print "CV accuracy score improved by", improvement
        else:
            previous_accuracy = accuracy
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...