Объединяются ли баллы TF-IDF за один семестр? - PullRequest
0 голосов
/ 07 марта 2019

Я читаю о TF-IDF, чтобы отфильтровать общие слова из моего корпуса.Мне кажется, что вы получаете оценку TF-IDF для каждого слова, пары документов.

На какую оценку вы обращаете внимание?Объединяете ли вы баллы по всем документам для слова?

enter image description here

1 Ответ

0 голосов
/ 08 марта 2019

TFIDF ex:

doc1 = "This is doc1"
doc2 = "This is a different document"
corpus = [doc1, doc2]
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
X = vec.fit_transform(corpus)
X.toarray()
return: array([[0.        , 0.70490949, 0.        , 0.50154891, 0.50154891],
   [0.57615236, 0.        , 0.57615236, 0.40993715, 0.40993715]])
vec.get_feature_names()

Итак, у вас есть массив line / 1d для каждого документа в корпусе, и этот массив имеет len = total vocab в вашем корпусе (может быть довольно разреженным).На какую оценку вы обращаете внимание, зависит от того, что вы делаете, то есть, находя самое важное слово в документе, вы можете найти самый высокий TF-idf в этом документе.Самое главное в корпусе, посмотрите на весь массив.Если вы пытаетесь идентифицировать стоп-слова, вы можете подумать о том, чтобы найти набор из числа X слов с минимальными баллами TF-IDF.Тем не менее, я бы не советовал использовать TF-IDF для поиска стоп-слов в первую очередь, это снижает вес стоп-слов, но они все еще встречаются часто, что может компенсировать потерю веса.Возможно, вам было бы лучше найти наиболее распространенные слова и затем отфильтровать их.Вы хотели бы посмотреть на любой набор, который вы создали вручную, хотя.

...