Кластеризация коммерческой информации с использованием K-средств для визуального картирования - PullRequest
0 голосов
/ 05 марта 2019

Я пытаюсь выполнить кластеризацию для небольших наборов данных, показанных конечным пользователям:

[
  [1.76, 81, 5, 0],
  [2.99, 72, 5, 0],
  [11.17, 420, 4.8, 0],
  [1.76, 53, 5, 0],
  [16.73, 3403, 5, 0],
  ... // 20 entries per user
]

Столбцы 1) розничная цена, 2) выполненные заказы, 3) рейтинг и 4) доставка соответственно.
Я хочу сгруппировать эти данные в несколько групп, чтобы визуализировать их на внешнем интерфейсе JS.

Я использую ecStat для echarts, и он работает, но постоянно меняет результаты.

[1, 1, 1, 1, 2, 3, 1, 1, 3, 1, 1, 4, 0, 3, 3, 1, 1, 1, 1, 1]
[3, 3, 3, 3, 4, 2, 3, 3, 2, 3, 3, 1, 0, 2, 2, 3, 3, 3, 3, 3]
[3, 3, 3, 3, 4, 2, 3, 3, 2, 3, 3, 1, 0, 2, 2, 3, 3, 3, 3, 3]
[2, 2, 2, 2, 0, 3, 2, 2, 3, 2, 2, 4, 1, 3, 3, 2, 2, 2, 2, 2]

Таким образом, я не могу визуализировать это должным образом, так как я использую визуальное отображение размера / цвета на основе кластеров.
Как и здесь, у нас есть 3 самых дешевых товара с самым высоким рейтингом зеленого цвета и макс.радиус, 5 предметов средней цены и желтоватого цвета, 8 предметов красного цвета и минимального размера и т. д.

Можно ли получить «стабильные» результаты в «установленных» кластерах?Является ли даже жизнеспособной идея использовать k-means и такие инструменты для кластеризации предметов с наименьшей ценой, наивысшим рейтингом, количеством заказов и т. Д.

Как вообще следует подходить к таким задачам?Любой совет очень ценится!

1 Ответ

0 голосов
/ 06 марта 2019

K-means начинается со случайной инициализации по умолчанию.

Если вы не хотите этого, вы можете, например,

  1. Использовать вместо этого стабильный алгоритм
  2. Выберите предыдущие центры в качестве отправных точек

Нестабильные (кроме перестановки) результаты обычно указывают на неоптимальную кластеризацию.K-средства также чувствительны к накипи.Так что, вероятно, не имеет смысла просто использовать его на данных, которые у вас есть.Вам нужно понять , что он делает, и как вам нужно подготовить данные для получения полезных результатов.

...