TfIdfVectorizer(max_features=50)
выбирает 50 лучших функций на основе топовых max_features, упорядоченных по частоте термина по всему корпусу.Согласно реализации TfIdf, это придает большее значение слову, которое встречается редко.Как объяснено в example_1 и example_2
, я нигде не мог найти ответ по этому поводу.
Итак, как происходит выбор топ-n функцийна основе частоты термин помогает, когда признакам, имеющим меньшее количество встречаемости, уделяется больше внимания?Кроме того, есть ли другой способ выбора соответствующих функций?