Сегментация набора данных на основе двух переменных на 4 сегмента - PullRequest
0 голосов
/ 27 сентября 2018

У меня есть набор данных, который содержит поисковые слова, общее количество поисковых запросов и общее количество использованных поисковых фраз.Это примерно так:

Sno        SearchWord        TotalSearch       TotalsearchPhrases
 1          Ball-e              100                  10
 2          Apple               897                  4
 3          Deutsche            1500                 21
 4          Microsoft           981                  7
 5          Holochen             30                  1
 6          Kamazai              20                  10

В общем,

  • Всего поисковых запросов , сколько раз эту компанию искали за месяц
  • Всего поисковых фраз означает, какие уникальные слова были использованы для поиска этой компании ( Due, dtsche, Duetch и т. Д. Для Deutsche и т. Д. )

Я хочу разбить эти данные, которые состоят из 10000+ компаний, на 4 категории:

  1. Используются высокие поисковые запросы и высокие общие поисковые фразы
  2. Высокие общие поисковые запросы и низкие общие используемые поисковые фразы
  3. Низкие общие поисковые запросы и высокие общие поисковые фразы
  4. Низкие общие поисковые запросы и низкие общие поисковые фразы

Я путаюсь в определении порога для этих 4критерии, есть ли способ, которым я могу использовать машинное обучение, чтобы автоматически назначать порог, используя кластеризацию или что-то еще?

1 Ответ

0 голосов
/ 28 сентября 2018

Я верю, что это можно сделать.Исходя из вашего вопроса, я предполагаю, что вы спрашиваете следующее:

С учетом вектора тревоги 4 [n, поисковое слово, общий поиск компании, общее использование поискового слова], вы должны разделить на 4 категории, которые вы указали выше.

Чтобы сделать это, вы должны построить несколько подмодулей, чтобы устранить проблему.

1-й модуль: классификатор

Сначала необходимо указать номеруникальных компаний в вашем списке.Затем вы должны определить общие поисковые фразы, используемые для идентификации каждой уникальной компании.Для этого вам необходимо создать контролируемый обучающий классификатор.

Ярлыки = Компании

Функция = Ввод в строку поиска

Итак: Метки = f (Функция)

2-й модуль

Затем необходимо указать то, что вы считаете высокой и низкой общей поисковой и поисковой фразой.Вы можете легко сделать это, найдя среднее значение или медиану поисковых фраз или общий поиск.Тогда все вышеперечисленные компании будут в одном кластере, остальные - в остальных.

Итак, сначала разделите ваши данные на половину, посмотрев, какие компании находятся ниже медианы общего поиска, половина будет выше медианы,Затем для каждой половины вы затем делите их пополам.На этот раз по медиальным общим поисковым фразам использовано.Для любых новых данных распределите их по соответствующим группам в зависимости от их общего поиска и общей поисковой фразы.

Таким образом, вы можете получить 4 отдельных кластера.Кроме того, вы можете повторно запускать алгоритм кластеризации после каждых 1000 новых точек данных.Итак, ваши данные всегда будут правильно организованы.

...