как кластеризовать развивающиеся потоки данных - PullRequest
2 голосов
/ 28 августа 2010

Я хочу постепенно кластеризовать текстовые документы, считывая их как потоки данных, но, похоже, существует проблема. Большинство вариантов взвешивания термина основаны на модели векторного пространства, использующей TF-IDF в качестве веса объекта. Однако в нашем случае IDF существующего атрибута изменяется с каждой новой точкой данных, и, следовательно, предыдущая кластеризация больше не остается действительной, и, следовательно, нельзя применять любые популярные алгоритмы, такие как CluStream, CURE, BIRCH, которые предполагают статические данные фиксированного размера. Может кто-нибудь перенаправить меня к любому существующему исследованию, связанному с этим или дать предложения? Спасибо !

Ответы [ 2 ]

4 голосов
1 голос
/ 30 августа 2010

Вот вам идея:

Каковы ваши входные данные?Я предполагаю, что это, по крайней мере, похожая тематика, так что вы могли бы начать со словаря базовых фраз и использовать его для idf. Apache Lucene - отличный движок индексации.Поскольку у вас есть базовый словарь, вы можете запустить kmeans или что угодно.По мере поступления документов вам придется с определенной частотой перестраивать словарь (который может быть выгружен в другой поток / машину / и т. Д.), А затем повторно кластеризоваться.

С данными, проиндексированными с высокой-производительный, гибкий движок, такой как Lucene, вы можете выполнять запросы даже при индексации новых документов.Бьюсь об заклад, если вы проведете какое-то исследование различных алгоритмов кластеризации , вы найдете несколько хороших идей.

Некоторые интересные статьи / ссылки:

  1. http://en.wikipedia.org/wiki/Document_classification
  2. http://www.scholarpedia.org/article/Text_categorization
  3. http://en.wikipedia.org/wiki/Naive_Bayes_classifier

Без дополнительной информации я не могу понять, почему вы не можете периодически кластеризовать время от времени.Возможно, вы захотите взглянуть на некоторые рекомендательные системы, которые уже существуют.

...