Как получить словарь CountVectorizer, используя конвейер - PullRequest
0 голосов
/ 29 мая 2019

обычно, когда я использую только CountVectorizer, у меня есть словарь, который я могу использовать в качестве параметра для нового объекта CountVectorizer для обработки новых данных до предсказания

cv = CountVectorizer()
X = cv.fit_transform(corpus).toarray()
cv_dict = cv.vocabulary_
test_cv = CountVectorizer(vocabulary = cv_dict)
test_X= test_cv.fit_transform(test_corpus).toarray()

Я хочузнать, как можно сделать то же самое, используя конвейер?Я пишу этот код для начала

text_features = dataset['corpus']
text_transformer = Pipeline(
    steps=[
        ('count', CountVectorizer()),
    ]
)

preprocessor = ColumnTransformer(
    transformers=[
        ('text', text_transformer, text_features[0])
    ]
)
...