Как выбор лучших N функций на основе термина freqeuncy помогает в TfIdf? - - PullRequest
0 голосов
/ 03 февраля 2019

TfIdfVectorizer(max_features=50) выбирает 50 лучших функций на основе топовых max_features, упорядоченных по частоте термина по всему корпусу.Согласно реализации TfIdf, это придает большее значение слову, которое встречается редко.Как объяснено в example_1 и example_2

, я нигде не мог найти ответ по этому поводу.

Итак, как происходит выбор топ-n функцийна основе частоты термин помогает, когда признакам, имеющим меньшее количество встречаемости, уделяется больше внимания?Кроме того, есть ли другой способ выбора соответствующих функций?

...