TFIDF обозначает частоту инверсии частоты документа.Это означает, что для каждого токена в каждом документе векторизация TFIDF сначала будет подсчитывать частоту токена в документе.Затем он будет обратно пропорционально взвешивать частоту токенов в пропорции документов, в которых также есть токен.
В результате каждый токен в каждом документе будет иметь значение, которое отражает его значение для этого конкретногодокумент , отрицательно взвешенный его присутствием во всех документах.
Некоторые процессоры TFIDF также могут добавлять дополнительное измерение взвешивания на основе количества других токенов в каждом документе.
Короче говоря, один и тот же токен имеет разные оценки в разных документах, потому что этот токен, вероятно, встречается в одних документах чаще, чем в других.Эта распространенность либо объясняется тем, что она встречается чаще, либо объясняется большей долей токенов документа.