Как объединить два countVectorizer? - PullRequest
1 голос
/ 16 мая 2019

Я использую классификацию текста для определения диалектов. Я использую sklearn и countVectorizer, я хочу обучить наивный байесовский классификатор как на основе символов, так и на словарях. Итак, у меня есть следующие настройки для двух countVectorizer:

c=CountVectorizer(analyzer='char', ngram_range=(2,3))
c.fit_transform(X_train)

v=CountVectorizer(vocabulary=vocabs)
v.fit_transform(X_train)

Куда мне идти оттуда? Я попробовал это:

numpy.concatenate([c,v])

как было предложено в этом посте: Как использовать биграммы + триграммы + словарный запас слов в countVectorizer?

но не сработало

...