Я пробую TfidfVectorizer на предложении, взятом из страницы википедии об истории Португалии. Однако я заметил, что метод TfidfVec.fit_transform
игнорирует определенные слова. Вот предложение, которое я попробовал:
sentence = "The oldest human fossil is the skull discovered in the Cave of Aroeira in Almonda."
TfidfVec = TfidfVectorizer()
tfidf = TfidfVec.fit_transform([sentence])
cols = [words[idx] for idx in tfidf.indices]
matrix = tfidf.todense()
pd.DataFrame(matrix,columns = cols,index=["Tf-Idf"])
вывод кадра данных:
![enter image description here](https://i.stack.imgur.com/iEKnc.png)
По сути, это игнорирование слов "Aroeira" и "Almonda".
Но я не хочу, чтобы он игнорировал эти слова, так что мне делать? Я не могу найти в документации нигде, где они говорят об этом.
Другой вопрос: почему слово «the» повторяется? должен ли алгоритм учитывать только одно "the" и вычислять его tf-idf?