Я использую классификацию текста для определения диалектов. Я использую sklearn и countVectorizer, я хочу обучить наивный байесовский классификатор как на основе символов, так и на словарях. Итак, у меня есть следующие настройки для двух countVectorizer:
c=CountVectorizer(analyzer='char', ngram_range=(2,3))
c.fit_transform(X_train)
v=CountVectorizer(vocabulary=vocabs)
v.fit_transform(X_train)
Куда мне идти оттуда? Я попробовал это:
numpy.concatenate([c,v])
как было предложено в этом посте:
Как использовать биграммы + триграммы + словарный запас слов в countVectorizer?
но не сработало