Question

Я использовал countVectorizer следующим образом:

from sklearn.feature_extraction.text import CountVectorizer  
vectorizer = CountVectorizer(max_features=200, min_df=2, max_df=0.7, 
stop_words=stopwords.words('arabic'))  
X = vectorizer.fit_transform(X).toarray()

Теперь этот код преобразует строку в двоичный файл, а затем я собираюсь обучить данные. Тем не менее, у меня теперь есть некоторые тестовые данные, которые являются небольшими. Как я могу преобразовать его в двоичную форму, чтобы я мог сравнить?

Matt · Answer 1 · 06 мая 2019

Просто используйте vectorizer, который вы вписываете в свои тренировочные данные, чтобы преобразовать текст в формат, ожидаемый вашей обученной моделью:

test_vectors = vectorizer.transform(test_text_data)

ramazanbozkir · Answer 2 · 06 мая 2019

Отображение массива из целочисленных индексов объекта в имя объекта:

vectorizer.get_feature_names()

Как использовать countVectorizer для проверки новых данных после некоторой тренировки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как использовать countVectorizer для проверки новых данных после некоторой тренировки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы