Как использовать countVectorizer для проверки новых данных после некоторой тренировки - PullRequest
1 голос
/ 05 мая 2019

Я использовал countVectorizer следующим образом:

from sklearn.feature_extraction.text import CountVectorizer  
vectorizer = CountVectorizer(max_features=200, min_df=2, max_df=0.7, 
stop_words=stopwords.words('arabic'))  
X = vectorizer.fit_transform(X).toarray()

Теперь этот код преобразует строку в двоичный файл, а затем я собираюсь обучить данные. Тем не менее, у меня теперь есть некоторые тестовые данные, которые являются небольшими. Как я могу преобразовать его в двоичную форму, чтобы я мог сравнить?

Ответы [ 2 ]

3 голосов
/ 06 мая 2019

Просто используйте vectorizer, который вы вписываете в свои тренировочные данные, чтобы преобразовать текст в формат, ожидаемый вашей обученной моделью:

test_vectors = vectorizer.transform(test_text_data)
1 голос
/ 06 мая 2019

Отображение массива из целочисленных индексов объекта в имя объекта:

vectorizer.get_feature_names()
...