Запустите обученную модель машинного обучения из другого набора данных. - PullRequest
0 голосов
/ 12 декабря 2018

Я новичок в машинном обучении и пытаюсь запустить простую классификационную модель, которую я обучил и сохранил с помощью pickle, в другом наборе данных того же формата.У меня есть следующий код Python.

Код

#Training set
features = pd.read_csv('../Data/Train_sop_Computed.csv')
#Testing set
testFeatures = pd.read_csv('../Data/Test_sop_Computed.csv')

print(colored('\nThe shape of our features is:','green'), features.shape)
print(colored('\nThe shape of our Test features is:','green'), testFeatures.shape)

features = pd.get_dummies(features)
testFeatures = pd.get_dummies(testFeatures)

features.iloc[:,5:].head(5)
testFeatures.iloc[:,5].head(5)

labels = np.array(features['Truth'])
testlabels = np.array(testFeatures['Truth'])

features= features.drop('Truth', axis = 1)
testFeatures = testFeatures.drop('Truth', axis = 1)

feature_list = list(features.columns)
testFeature_list = list(testFeatures.columns)

def add_missing_dummy_columns(d, columns):
    missing_cols = set(columns) - set(d.columns)
    for c in missing_cols:
        d[c] = 0


def fix_columns(d, columns):
    add_missing_dummy_columns(d, columns)

    # make sure we have all the columns we need
    assert (set(columns) - set(d.columns) == set())

    extra_cols = set(d.columns) - set(columns)
    if extra_cols: print("extra columns:", extra_cols)

    d = d[columns]
    return d


testFeatures = fix_columns(testFeatures, features.columns)

features = np.array(features)
testFeatures = np.array(testFeatures)

train_samples = 100

X_train, X_test, y_train, y_test = model_selection.train_test_split(features, labels, test_size = 0.25, random_state = 42)
testX_train, textX_test, testy_train, testy_test = model_selection.train_test_split(testFeatures, testlabels, test_size= 0.25, random_state = 42)

print(colored('\n        TRAINING SET','yellow'))
print(colored('\nTraining Features Shape:','magenta'), X_train.shape)
print(colored('Training Labels Shape:','magenta'), X_test.shape)
print(colored('Testing Features Shape:','magenta'), y_train.shape)
print(colored('Testing Labels Shape:','magenta'), y_test.shape)

print(colored('\n        TESTING SETS','yellow'))
print(colored('\nTraining Features Shape:','magenta'), testX_train.shape)
print(colored('Training Labels Shape:','magenta'), textX_test.shape)
print(colored('Testing Features Shape:','magenta'), testy_train.shape)
print(colored('Testing Labels Shape:','magenta'), testy_test.shape)

from sklearn.metrics import precision_recall_fscore_support

import pickle

loaded_model_RFC = pickle.load(open('../other/SOPmodel_RFC', 'rb'))
result_RFC = loaded_model_RFC.score(textX_test, testy_test)
print(colored('Random Forest Classifier: ','magenta'),result_RFC)

loaded_model_SVC = pickle.load(open('../other/SOPmodel_SVC', 'rb'))
result_SVC = loaded_model_SVC.score(textX_test, testy_test)
print(colored('Support Vector Classifier: ','magenta'),result_SVC)

loaded_model_GPC = pickle.load(open('../other/SOPmodel_Gaussian', 'rb'))
result_GPC = loaded_model_GPC.score(textX_test, testy_test)
print(colored('Gaussian Process Classifier: ','magenta'),result_GPC)

loaded_model_SGD = pickle.load(open('../other/SOPmodel_SGD', 'rb'))
result_SGD = loaded_model_SGD.score(textX_test, testy_test)
print(colored('Stocastic Gradient Descent: ','magenta'),result_SGD)

Я могу получить результаты для набора тестов.

Но проблема, с которой я сталкиваюсь, заключается в том, что мне нужно запустить модель для всего набора данных Test_sop_Computed.csv.Но он запускается только на тестовом наборе данных, который я разделил.Я был бы искренне признателен, если бы кто-нибудь мог дать какие-либо предложения о том, как я могу запустить загруженную модель для всего набора данных.Я знаю, что я ошибаюсь в следующей строке кода.

testX_train, textX_test, testy_train, testy_test = model_selection.train_test_split(testFeatures, testlabels, test_size= 0.25, random_state = 42)

Наборы данных поезда и теста имеют Subject, Predicate, Object, Computed и Truth, а функции с Truth являются прогнозируемымиучебный класс.У набора данных тестирования есть фактические значения для этого столбца Truth, и я дополняю его с помощью testFeatures = testFeatures.drop('Truth', axis = 1) и намереваюсь использовать различные загруженные модели классификаторов для прогнозирования этого Truth как 0 или 1 для всего набора данных, а затем получите прогнозы в виде массива.

Я сделал это до сих пор.Но я думаю, что я тоже делю свой тестовый набор данных.Есть ли способ пройти весь набор тестовых данных, даже если он находится в другом файле?

Этот набор тестовых данных находится в том же формате, что и обучающий набор.Я проверил форму двух и получил следующее.

Подтверждение характеристик и формы

Shape of the Train features is: (1860, 5)
Shape of the Test features is: (1386, 5)

         TRAINING SET

Training Features Shape: (1395, 1045)
Training Labels Shape: (465, 1045)
Testing Features Shape: (1395,)
Testing Labels Shape: (465,)

          TEST SETS

Training Features Shape: (1039, 1045)
Training Labels Shape: (347, 1045)
Testing Features Shape: (1039,)
Testing Labels Shape: (347,)

Любые предложения в этом отношении будут высоко оценены.

1 Ответ

0 голосов
/ 12 декабря 2018

Ваш вопрос немного неясен, но, как я понимаю, вы хотите запустить свою модель на testX_train и на testX_test (который просто testFeatures разделен надва набора данных).

Итак, вы можете запустить свою модель на testX_train так же, как вы делали для testX_test , например:

result_RFC_train = loaded_model_RFC.score(textX_train, testy_train)

или вы можете просто удалить следующую строку:

testX_train, textX_test, testy_train, testy_test = model_selection.train_test_split(testFeatures, testlabels, test_size= 0.25, random_state = 42)

Таким образом, вы просто не разделяете свои данные и не запускаете их для полного набора данных:

result_RFC_train = loaded_model_RFC.score(testFeatures, testlabels)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...