Инкрементная кластеризация - PullRequest
0 голосов
/ 06 августа 2011

, пожалуйста, предложите какой-нибудь способ для эффективной инкрементной кластеризации.Я пытаюсь поместить похожие строки в одну группу.сравнивать друг с другом не эффективно.Я подумал, что нужно проверить каждую входную строку с представителем кластера (это означает, что в этом кластере есть один типичный образец для строк, так что новую строку можно сравнить только с этим).Итак, все, с чего можно начать, чтобы почти одинаковые строки в кластере могли быть представлены одним универсальным шаблоном (может быть) с максимально возможной точностью.Таким образом, новый вход просто сравнивается с представителем кластера и сохраняется в нем, если он найден аналогичным.Число кластеров и входных данных не фиксировано ... строки являются потоковыми и могут иметь любую длину шаблона.

Надеюсь, я был понятен.Просто помоги мне с термином, чтобы начать.

1 Ответ

0 голосов
/ 06 августа 2011

Похоже, что часть проблемы, которая создает вам трудности, заключается в поиске репрезентативного шаблона для использования для каждого кластера.

Обычный способ кластеризации строк состоит в том, чтобы рассматривать их как векторы и использовать косинусное сходство в качестве меры расстояния: http://en.wikipedia.org/wiki/Cosine_distance

Когда строки в кластере представлены как векторы, тогда я думаю, что центр кластера - это просто сумма нормализованных векторов. Используйте эту сумму в качестве представителя для сравнения каждой новой строки с.

...