Как кластеризовать, когда у вас есть набор категориальных данных (порядковые категориальные функции, а также одна горячая закодированная функция)? - PullRequest
0 голосов
/ 11 января 2020

Я должен сформировать кластеры в наборе данных, где у меня есть только категориальные переменные. Некоторые из категориальных переменных имеют порядковый характер (например, уровень образования и имеют записи как 1,2,3, в то время как другие представляют собой только одну горячо закодированную функцию, такую ​​как is_loan, где записи имеют значение 0 или 1). Мне нужна помощь по следующим вопросам:

  • Как лучше всего масштабировать мой набор данных в этом случае. Я предполагаю, что скаляр zscore не будет работать, поскольку он не обеспечит общий масштаб для всех функций. Кроме того, я использовал скаляр MinMax, но в этом случае не соответствует локоть kmeans. Должен ли я использовать нормализацию столбцов (делая столбец единичной нормой)?
  • Каким должен быть идеальный алгоритм кластеризации в этом отношении?

Я новичок в области науки о данных и мне трудно найти решение этих вопросов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...