Кластеризация с визуализацией данных - PullRequest
0 голосов
/ 13 мая 2018

Формат моего входного файла следующий:

PERSON1 BUILDING1
PERSON2 BUILDING4
PERSON3 BUILDING4
PERSON5 BUILDING3
PERSON3 BUILDING2
PERSON3 BUILDING1
PERSON5 BUILDING6
PERSON4 BUILDING6
1000 more rows like this

Каждая строка должна читаться так: «Человек X посетил здание Y»

Я просто хочу, чтобы кластеры были такими:

Cluster 1 : Persons that visited only 1 building (the same building)
Cluster 2 : Persons that visited only 2 buildings (the same buildings, let's say building 1 & 2)
Cluster 3 : Persons that visited only 2 buildings (the same buildings, let's say building 3 & 4)
Cluster 4 : Persons that visited only 3 buildings (the same buildings)
etc..

Каков наилучший способ сделать это? Есть ли в идеале программное обеспечение с визуализацией данных, которое может это сделать? Я попробовал Knime безуспешно.

Ответы [ 2 ]

0 голосов
/ 16 мая 2018

I second @ Anony-Mousse Решения больше похожи на использование «group by», чем на кластеризацию.Итак, с целью доказать, что это работает, я создал простой код с knime , получающий ожидаемый результат.Затем, для упомянутой вами части визуализации, может быть полезным будет анализ соответствия:

enter image description here

эта диаграмма реализована в R (вы можете использовать Rузел) и показывает, как связана сущность (скажем, посетители - синяя) с другой сущностью (скажем, здания - красной), но, разумеется, правильная диаграмма зависит от ваших полных данных и намерений.

0 голосов
/ 14 мая 2018

Вам необходимо соответствующим образом переформатировать данные.

Использование операции group_by на основе набора посещенных зданий.

Это намного проще, чем кластеризация.

...