Я прошел [Теорию оценки релевантности] [1] и получил два связанных вопроса
Q1: - Поскольку формула IDF равна idf(t) = 1 + log ( numDocs / (docFreq + 1))
, где numDocs
- общее количество документов в индексе. Означает ли это, что каждый раз, когда новый документ добавляется в индекс, нам нужно пересчитать IDF для каждого слова для всех существующих документов в индексе?
Q2: - ссылка, упомянутая ниже заявление. У меня вопрос, есть ли причина, по которой счет TF / IDF рассчитывается по каждому полю, а не по всему документу?
Когда мы ссылаемся на документы в предыдущих формулах, мы на самом деле
говорить о поле в документе. Каждое поле имеет свое
инвертированный индекс и, следовательно, для целей TF / IDF значение поля
это значение документа.