Я пытаюсь понять и понять, как работают алгоритмы кластеризации с использованием Python
Вопрос:
У меня есть набор данных, скажем, примерно с 5 столбцами со смешанными типами данных (буквенно-цифровой / дата / числовой), и я хочу кластеризовать его на основе нескольких полей с общим значением.
Пример:
Index Col-1 Col-2 Col-3 Col-4 Col-5
----------------------------------------------------------------
0 US1 John ABC123 01/01/2019 200
1 US2 Alex 256xyz 01/12/2018 8000
2 US1 John ABC12 01/01/2019 200
3 US2 Alex 00256xyz 01/12/2018 8000
4 US2 Alex XYZ 01/12/2018 8000
5 US3 Mary 345abc 27/03/2000 9040
Вывод:
Index
Cluster-1: 0 and 2
Cluster-2: 1,3,4
Cluster-3: 5
На основе Col-1,2,4,5 должны быть созданы кластеры.
Я не знаю, имеет ли это какой-то смысл и возможно ли достичьit.
Если да, какой алгоритм лучше всего использовать для нечислового набора данных? Или это может быть достигнуто с помощью кода.