TFIDF ex:
doc1 = "This is doc1"
doc2 = "This is a different document"
corpus = [doc1, doc2]
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
X = vec.fit_transform(corpus)
X.toarray()
return: array([[0. , 0.70490949, 0. , 0.50154891, 0.50154891],
[0.57615236, 0. , 0.57615236, 0.40993715, 0.40993715]])
vec.get_feature_names()
Итак, у вас есть массив line / 1d для каждого документа в корпусе, и этот массив имеет len = total vocab в вашем корпусе (может быть довольно разреженным).На какую оценку вы обращаете внимание, зависит от того, что вы делаете, то есть, находя самое важное слово в документе, вы можете найти самый высокий TF-idf в этом документе.Самое главное в корпусе, посмотрите на весь массив.Если вы пытаетесь идентифицировать стоп-слова, вы можете подумать о том, чтобы найти набор из числа X слов с минимальными баллами TF-IDF.Тем не менее, я бы не советовал использовать TF-IDF для поиска стоп-слов в первую очередь, это снижает вес стоп-слов, но они все еще встречаются часто, что может компенсировать потерю веса.Возможно, вам было бы лучше найти наиболее распространенные слова и затем отфильтровать их.Вы хотели бы посмотреть на любой набор, который вы создали вручную, хотя.