Я хочу постепенно кластеризовать текстовые документы, считывая их как потоки данных, но, похоже, существует проблема. Большинство вариантов взвешивания термина основаны на модели векторного пространства, использующей TF-IDF в качестве веса объекта. Однако в нашем случае IDF существующего атрибута изменяется с каждой новой точкой данных, и, следовательно, предыдущая кластеризация больше не остается действительной, и, следовательно, нельзя применять любые популярные алгоритмы, такие как CluStream, CURE, BIRCH, которые предполагают статические данные фиксированного размера.
Может кто-нибудь перенаправить меня к любому существующему исследованию, связанному с этим или дать предложения? Спасибо !