обычно, когда я использую только CountVectorizer
, у меня есть словарь, который я могу использовать в качестве параметра для нового объекта CountVectorizer
для обработки новых данных до предсказания
cv = CountVectorizer()
X = cv.fit_transform(corpus).toarray()
cv_dict = cv.vocabulary_
test_cv = CountVectorizer(vocabulary = cv_dict)
test_X= test_cv.fit_transform(test_corpus).toarray()
Я хочузнать, как можно сделать то же самое, используя конвейер?Я пишу этот код для начала
text_features = dataset['corpus']
text_transformer = Pipeline(
steps=[
('count', CountVectorizer()),
]
)
preprocessor = ColumnTransformer(
transformers=[
('text', text_transformer, text_features[0])
]
)