Возможно ли кластеризация на основе нескольких строковых функций - PullRequest
0 голосов
/ 21 ноября 2019

Я пытаюсь понять и понять, как работают алгоритмы кластеризации с использованием Python

Вопрос:

У меня есть набор данных, скажем, примерно с 5 столбцами со смешанными типами данных (буквенно-цифровой / дата / числовой), и я хочу кластеризовать его на основе нескольких полей с общим значением.

Пример:

Index  Col-1       Col-2       Col-3       Col-4         Col-5    
----------------------------------------------------------------
 0     US1          John        ABC123      01/01/2019    200
 1     US2          Alex        256xyz      01/12/2018    8000
 2     US1          John        ABC12       01/01/2019    200
 3     US2          Alex        00256xyz    01/12/2018    8000
 4     US2          Alex        XYZ         01/12/2018    8000
 5     US3          Mary        345abc      27/03/2000    9040

Вывод:

                Index

Cluster-1:     0 and 2

Cluster-2:       1,3,4

Cluster-3:      5

На основе Col-1,2,4,5 должны быть созданы кластеры.

Я не знаю, имеет ли это какой-то смысл и возможно ли достичьit.

Если да, какой алгоритм лучше всего использовать для нечислового набора данных? Или это может быть достигнуто с помощью кода.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...