Я использую текстовую классификацию с наивными байесовскими и countVectorizer для классификации диалектов.Я прочитал исследовательскую работу, в которой автор использовал комбинацию:
bigrams + trigrams + word-marks vocabulary
Он подразумевает здесь под словесными знаками слова, характерные для определенного диалекта.
Как я могунастроить эти параметры в countVectorizer?
словесные знаки
Так что это примеры словесных знаков, но это не то, что у меня есть, потому что у меня арабский.Поэтому я перевёл их.
word_marks=['love', 'funny', 'happy', 'amazing']
Они используются для классификации текста.
Также в этом посте: Понимание аргумента `ngram_range` в CountVectorizer в sklearn
Был ответ:
>>> v = CountVectorizer(ngram_range=(1, 2), vocabulary={"keeps", "keeps the"})
>>> v.fit_transform(["an apple a day keeps the doctor away"]).toarray()
array([[1, 1]]) # unigram and bigram found
Я не мог понять вывод, что здесь означает [1,1]?и как он смог использовать Ngram со словарем?не оба ли они взаимоисключающие?