Я должен сформировать кластеры в наборе данных, где у меня есть только категориальные переменные. Некоторые из категориальных переменных имеют порядковый характер (например, уровень образования и имеют записи как 1,2,3, в то время как другие представляют собой только одну горячо закодированную функцию, такую как is_loan, где записи имеют значение 0 или 1). Мне нужна помощь по следующим вопросам:
- Как лучше всего масштабировать мой набор данных в этом случае. Я предполагаю, что скаляр zscore не будет работать, поскольку он не обеспечит общий масштаб для всех функций. Кроме того, я использовал скаляр MinMax, но в этом случае не соответствует локоть kmeans. Должен ли я использовать нормализацию столбцов (делая столбец единичной нормой)?
- Каким должен быть идеальный алгоритм кластеризации в этом отношении?
Я новичок в области науки о данных и мне трудно найти решение этих вопросов.