как работают параметры TfidfVectorizer "min_df" и "max_df"? - PullRequest
0 голосов
/ 28 мая 2020

Я пытаюсь выполнить классификацию с несколькими метками, используя набор текстовых данных. И используя TfidfVectorizer , потому что я хочу фильтровать значения на основе определенного порога, скажем, 0,005. Значения, у которых оценка TF-IDF меньше порогового значения, не должны учитываться при обучении.

Теперь я вижу единственный возможный способ сделать это - использовать min_df и max_df . Но я не понимаю, как это работает. Как я могу использовать эти два параметра для фильтрации своих функций на основе определенного порога?

...