Я пытаюсь создать программное обеспечение для классификации документов, которое может классифицировать документ по таким категориям, как финансовые, политические, развлекательные и т. Д.
Я использую набор данных BBC, создал вектор TFIDF и использовал классификатор RandomForest дляпостроить модель машинного обучения.Я также сохранил его в файл пикеля
Теперь я не могу понять, как использовать сохраненный файл пикеля и предсказать категорию нового документа.Я написал код, чтобы открыть новый документ, выполнить всю предварительную обработку и получить предварительно обработанный текст.Как использовать этот текст, чтобы классифицировать его, используя сохраненную модель?Я не могу понять, как добавить этот документ в мой существующий вектор TFIDF.
У меня есть этот массив документов с текстовыми файлами, и вот как я использовал для обучения модели.
vectorizer = CountVectorizer(max_features=1000 , min_df=5, max_df=0.8)
X = vectorizer.fit_transform(documents).toarray()
tfidfConverter = TfidfTransformer()
X = tfidfConverter.fit_transform(X).toarray()
X_Train , X_Test , Y_Train , Y_Test = train_test_split(X,Y,test_size=0.3 , random_state=0)
classifier = RandomForestClassifier(n_estimators=1000 , random_state=0)
classifier.fit(X_Train,Y_Train)
Y_Predict = classifier.predict(X_Test)
with open('text_classifier','wb') as pickleFile:
pickle.dump(classifier,pickleFile)