Я получил следующий код, где я преобразовываю текст в tf:
...
x_train, x_test, y_train, y_test = model_selection.train_test_split(dataset['documents'],dataset['classes'],test_size=test_percentil)
#Term document matrix
count_vect = CountVectorizer(ngram_range=(1, Ngram), min_df=1, max_features=MaxVocabulary)
x_train_counts = count_vect.fit_transform(x_train)
x_test_counts=count_vect.transform(x_test)
#Term Inverse-Frequency
tf_transformer = TfidfTransformer(use_idf=True).fit(x_train_counts)
lista=tf_transformer.get_params()
x_train_tf = tf_transformer.transform(x_train_counts)
x_test_tf=tf_transformer.transform(x_test_counts)
...
Затем я тренирую модель и сохраняю ее, используя рассол.
Проблема возникает, когда в другой программе я пытаюсь предсказать новые данные.
В основном я получил:
count_vect = CountVectorizer(ngram_range=(1, 1), min_df=1, max_features=None)
x_counts = count_vect.fit_transform(dataset['documents'])
#Term Inverse-Frequency
tf_transformer = TfidfTransformer(use_idf=True).fit(x_counts)
x_tf = tf_transformer.transform(x_train_counts)
model.predict(x_tf)
Когда я выполняю этот код, вывод
ValueError: X имеет 8933 функции на выборку; ожидая 7488
Я знаю, что это проблема с представлением TfIdf, и я слышал, что мне нужно использовать один и тот же tf_transformer и vectorizer, чтобы получить ожидаемую форму ввода, но я не знаю, как этого добиться.
Я могу хранить другие трансформеры и векторизаторы, но я пробовал использовать разные комбинации и ничего не получил.