Как предсказать категорию нового документа в Scikit Learn - PullRequest
0 голосов
/ 18 мая 2019

Я пытаюсь создать программное обеспечение для классификации документов, которое может классифицировать документ по таким категориям, как финансовые, политические, развлекательные и т. Д.

Я использую набор данных BBC, создал вектор TFIDF и использовал классификатор RandomForest дляпостроить модель машинного обучения.Я также сохранил его в файл пикеля

Теперь я не могу понять, как использовать сохраненный файл пикеля и предсказать категорию нового документа.Я написал код, чтобы открыть новый документ, выполнить всю предварительную обработку и получить предварительно обработанный текст.Как использовать этот текст, чтобы классифицировать его, используя сохраненную модель?Я не могу понять, как добавить этот документ в мой существующий вектор TFIDF.

У меня есть этот массив документов с текстовыми файлами, и вот как я использовал для обучения модели.

vectorizer = CountVectorizer(max_features=1000 , min_df=5, max_df=0.8)
X = vectorizer.fit_transform(documents).toarray()

tfidfConverter = TfidfTransformer()
X = tfidfConverter.fit_transform(X).toarray()

X_Train , X_Test , Y_Train , Y_Test = train_test_split(X,Y,test_size=0.3 , random_state=0)

classifier = RandomForestClassifier(n_estimators=1000 , random_state=0)
classifier.fit(X_Train,Y_Train)

Y_Predict = classifier.predict(X_Test)

with open('text_classifier','wb') as pickleFile:
    pickle.dump(classifier,pickleFile)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...