, пожалуйста, предложите какой-нибудь способ для эффективной инкрементной кластеризации.Я пытаюсь поместить похожие строки в одну группу.сравнивать друг с другом не эффективно.Я подумал, что нужно проверить каждую входную строку с представителем кластера (это означает, что в этом кластере есть один типичный образец для строк, так что новую строку можно сравнить только с этим).Итак, все, с чего можно начать, чтобы почти одинаковые строки в кластере могли быть представлены одним универсальным шаблоном (может быть) с максимально возможной точностью.Таким образом, новый вход просто сравнивается с представителем кластера и сохраняется в нем, если он найден аналогичным.Число кластеров и входных данных не фиксировано ... строки являются потоковыми и могут иметь любую длину шаблона.
Надеюсь, я был понятен.Просто помоги мне с термином, чтобы начать.