В основном есть два варианта:
Вычислять ваши оценки tf-idf только тогда, когда они вам нужны.Добавление нового документа теперь тривиально.Все, что вам нужно сделать, это обновить количество всех документов, количество документов, в которых находится токен, и сохранить вектор вхождения токена для нового документа.
Периодически пересчитывайте ваши векторы tf-idf, возможно, после добавления 100K документов или чего-то в этом роде.В промежутке просто работайте со старыми значениями (количество всех документов, количество документов, в которых находится токен).
Если ваша коллекция действительно большая, вы, вероятно, захотите взятьвторой подход, потому что новые документы в любом случае не сильно изменят глобальное распространение слов.Тем не менее, лучше протестировать оба метода и выбрать тот, который лучше всего подходит для вашей проблемы.