Question

Я использую классификацию текста для определения диалектов. Я использую sklearn и countVectorizer, я хочу обучить наивный байесовский классификатор как на основе символов, так и на словарях. Итак, у меня есть следующие настройки для двух countVectorizer:

c=CountVectorizer(analyzer='char', ngram_range=(2,3))
c.fit_transform(X_train)

v=CountVectorizer(vocabulary=vocabs)
v.fit_transform(X_train)

Куда мне идти оттуда? Я попробовал это:

numpy.concatenate([c,v])

как было предложено в этом посте: Как использовать биграммы + триграммы + словарный запас слов в countVectorizer?

но не сработало

Как объединить два countVectorizer?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как объединить два countVectorizer?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы