Question

Я хочу постепенно кластеризовать текстовые документы, считывая их как потоки данных, но, похоже, существует проблема. Большинство вариантов взвешивания термина основаны на модели векторного пространства, использующей TF-IDF в качестве веса объекта. Однако в нашем случае IDF существующего атрибута изменяется с каждой новой точкой данных, и, следовательно, предыдущая кластеризация больше не остается действительной, и, следовательно, нельзя применять любые популярные алгоритмы, такие как CluStream, CURE, BIRCH, которые предполагают статические данные фиксированного размера. Может кто-нибудь перенаправить меня к любому существующему исследованию, связанному с этим или дать предложения? Спасибо !

dunelmtech · Answer 1 · 30 августа 2010

Вы смотрели на

TF-ICF: новая схема взвешивания сроков для кластеризации динамических потоков данных

The Alchemist · Answer 2 · 30 августа 2010

Вот вам идея:

Каковы ваши входные данные?Я предполагаю, что это, по крайней мере, похожая тематика, так что вы могли бы начать со словаря базовых фраз и использовать его для idf. Apache Lucene - отличный движок индексации.Поскольку у вас есть базовый словарь, вы можете запустить kmeans или что угодно.По мере поступления документов вам придется с определенной частотой перестраивать словарь (который может быть выгружен в другой поток / машину / и т. Д.), А затем повторно кластеризоваться.

С данными, проиндексированными с высокой-производительный, гибкий движок, такой как Lucene, вы можете выполнять запросы даже при индексации новых документов.Бьюсь об заклад, если вы проведете какое-то исследование различных алгоритмов кластеризации , вы найдете несколько хороших идей.

Некоторые интересные статьи / ссылки:

Без дополнительной информации я не могу понять, почему вы не можете периодически кластеризовать время от времени.Возможно, вы захотите взглянуть на некоторые рекомендательные системы, которые уже существуют.

как кластеризовать развивающиеся потоки данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как кластеризовать развивающиеся потоки данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы