некоторые слова не отображаются (cv.vocabulary_) при использовании CountVectorizer - PullRequest
0 голосов
/ 25 февраля 2020

Я использую CountVectorizer для получения словарного запаса слов и далее для вычисления частоты слов, но проблема в том, что первое слово «I» отсутствует в словаре.

Код:

from sklearn.feature_extraction.text import CountVectorizer

docs = ["I love my dog but the dog sat on my bed", 
       "I love my cat but the cat sat on my face"]

cv = CountVectorizer(docs)
count_vector=cv.fit_transform(docs)
cv.vocabulary_

Печать:

{'bed': 0,
 'but': 1,
 'cat': 2,
 'dog': 3,
 'face': 4,
 'love': 5,
 'my': 6,
 'on': 7,
 'sat': 8,
 'the': 9}
...