Я использовал countVectorizer следующим образом:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(max_features=200, min_df=2, max_df=0.7,
stop_words=stopwords.words('arabic'))
X = vectorizer.fit_transform(X).toarray()
Теперь этот код преобразует строку в двоичный файл, а затем я собираюсь обучить данные.
Тем не менее, у меня теперь есть некоторые тестовые данные, которые являются небольшими. Как я могу преобразовать его в двоичную форму, чтобы я мог сравнить?