Я использую CountVectorizer для получения словарного запаса слов и далее для вычисления частоты слов, но проблема в том, что первое слово «I» отсутствует в словаре.
Код:
from sklearn.feature_extraction.text import CountVectorizer
docs = ["I love my dog but the dog sat on my bed",
"I love my cat but the cat sat on my face"]
cv = CountVectorizer(docs)
count_vector=cv.fit_transform(docs)
cv.vocabulary_
Печать:
{'bed': 0,
'but': 1,
'cat': 2,
'dog': 3,
'face': 4,
'love': 5,
'my': 6,
'on': 7,
'sat': 8,
'the': 9}