Добавление документов в забитую коллекцию TF-IDF? - PullRequest
1 голос
/ 22 июля 2010

У меня есть большая коллекция документов, для которых уже рассчитан TF-IDF.Я готовлюсь добавить еще несколько документов в коллекцию, и мне интересно, есть ли способ добавить оценки TF-IDF в новые документы без повторной обработки всей базы данных?

1 Ответ

4 голосов
/ 23 июля 2010

В основном есть два варианта:

  1. Вычислять ваши оценки tf-idf только тогда, когда они вам нужны.Добавление нового документа теперь тривиально.Все, что вам нужно сделать, это обновить количество всех документов, количество документов, в которых находится токен, и сохранить вектор вхождения токена для нового документа.

  2. Периодически пересчитывайте ваши векторы tf-idf, возможно, после добавления 100K документов или чего-то в этом роде.В промежутке просто работайте со старыми значениями (количество всех документов, количество документов, в которых находится токен).

Если ваша коллекция действительно большая, вы, вероятно, захотите взятьвторой подход, потому что новые документы в любом случае не сильно изменят глобальное распространение слов.Тем не менее, лучше протестировать оба метода и выбрать тот, который лучше всего подходит для вашей проблемы.

...