После кодирования 3 категориальных переменных у меня есть DataFrame, содержащий 3000 столбцов, каждый со значениями 0 или 1.
Этот DataFrame также имеет собственные числовые столбцы (нормализованные от 0 до 1).
- категориальная переменная A приводит к 10 столбцам после OneHotEncoding
- категориальная переменная B приводит к 200 столбцам после OneHotEncoding
- категориальная переменная C приводит к 2790 столбцам после OneHotEncoding
Перед использованием алгоритма кластеризации (K-средние) имеет ли смысл применять весовой коэффициент к кодированным столбцам, например:
(псевдокод)
df = hstack (10 * A, 200 * B, 2790 * C)
чтобы придать одинаковую «силу» этим категориям?
Я заметил, что при этом оценка силуэта намного лучше.