Question

Я должен сформировать кластеры в наборе данных, где у меня есть только категориальные переменные. Некоторые из категориальных переменных имеют порядковый характер (например, уровень образования и имеют записи как 1,2,3, в то время как другие представляют собой только одну горячо закодированную функцию, такую как is_loan, где записи имеют значение 0 или 1). Мне нужна помощь по следующим вопросам:

Как лучше всего масштабировать мой набор данных в этом случае. Я предполагаю, что скаляр zscore не будет работать, поскольку он не обеспечит общий масштаб для всех функций. Кроме того, я использовал скаляр MinMax, но в этом случае не соответствует локоть kmeans. Должен ли я использовать нормализацию столбцов (делая столбец единичной нормой)?
Каким должен быть идеальный алгоритм кластеризации в этом отношении?

Я новичок в области науки о данных и мне трудно найти решение этих вопросов.

Как кластеризовать, когда у вас есть набор категориальных данных (порядковые категориальные функции, а также одна горячая закодированная функция)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как кластеризовать, когда у вас есть набор категориальных данных (порядковые категориальные функции, а также одна горячая закодированная функция)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы