Я думаю, что вы собираетесь использовать TfidfVectorizer
, который имеет параметр stop_words
. См. Документацию здесь
Пример:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
'This is the first document.',
'This document is the second document.',
'And this is the third one.',
'Is this the first document?',
]
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(corpus)