Я верю, что это можно сделать.Исходя из вашего вопроса, я предполагаю, что вы спрашиваете следующее:
С учетом вектора тревоги 4 [n, поисковое слово, общий поиск компании, общее использование поискового слова], вы должны разделить на 4 категории, которые вы указали выше.
Чтобы сделать это, вы должны построить несколько подмодулей, чтобы устранить проблему.
1-й модуль: классификатор
Сначала необходимо указать номеруникальных компаний в вашем списке.Затем вы должны определить общие поисковые фразы, используемые для идентификации каждой уникальной компании.Для этого вам необходимо создать контролируемый обучающий классификатор.
Ярлыки = Компании
Функция = Ввод в строку поиска
Итак: Метки = f (Функция)
2-й модуль
Затем необходимо указать то, что вы считаете высокой и низкой общей поисковой и поисковой фразой.Вы можете легко сделать это, найдя среднее значение или медиану поисковых фраз или общий поиск.Тогда все вышеперечисленные компании будут в одном кластере, остальные - в остальных.
Итак, сначала разделите ваши данные на половину, посмотрев, какие компании находятся ниже медианы общего поиска, половина будет выше медианы,Затем для каждой половины вы затем делите их пополам.На этот раз по медиальным общим поисковым фразам использовано.Для любых новых данных распределите их по соответствующим группам в зависимости от их общего поиска и общей поисковой фразы.
Таким образом, вы можете получить 4 отдельных кластера.Кроме того, вы можете повторно запускать алгоритм кластеризации после каждых 1000 новых точек данных.Итак, ваши данные всегда будут правильно организованы.