Как нормализовать TF * IDF или считать в scikit-learn? - PullRequest
0 голосов
/ 04 июля 2019

Я хочу проверить косинусное сходство двух документов разной длины (скажем, один - один или два слоя, а другой - 100-200 строк).

Мне нужен способ нормализовать tfidf или счетчик векторов в scikit-learn для этого.

1 Ответ

1 голос
/ 06 июля 2019

TfidfVectorizer имеет атрибут norm (см. документы ), который решает эту проблему. Попробуйте, например, что-то вроде этого:

vectorizer = TfidfVectorizer(analyzer='word', stop_words='english', norm='l2')

Это нормализует векторы для учета различий в длине документа.

...