использование модели склеарн для новых данных - PullRequest
0 голосов
/ 08 июля 2019

использовал DictVectorizer от Scikit для создания векторного элемента

X = dataset.drop('Tag', axis=1)
v = DictVectorizer(sparse=False)
X = v.fit_transform(X.to_dict('records')) 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.33, random_state=0)
classes = np.unique(y)
classes = classes.tolist()
per = Perceptron(verbose=10, n_jobs=-1, max_iter=5)
per.partial_fit(X_train, y_train, classes)
joblib.dump(per, 'saved_model.pkl') 

и сохранить тринную модель в файл. загрузить модель в другой файл для новой даты

new_X=df
v = DictVectorizer(sparse=False)
new_X = v.fit_transform(new_X.to_dict('records'))
#Load model
per_load = joblib.load('saved_model2.pkl')
per_load.predict(new_X)

Я пытаюсь предсказать новые данные. Когда я выполняю этот код, вывод Ошибка значения

ValueError: X имеет 43 функции на выборку; ожидая 983

Как сохранить модель?

1 Ответ

0 голосов
/ 08 июля 2019

вам нужно сохранить объект выбора для векторизатора, а также применить преобразование, а не fit_transform, потому что ваш векторизатор уже выучил словарь и его нужно использовать для прогнозирования невидимых данных

 #use 
 import joblib

joblib.dump(v, 'vectorizer.pkl')

#loading pickle 
v =  joblib.load('vectorizer.pkl') 


per_load.predict(v.transform(["new comment"]) #don't use fit_transform , use transfom only
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...