Question

После кодирования 3 категориальных переменных у меня есть DataFrame, содержащий 3000 столбцов, каждый со значениями 0 или 1.
Этот DataFrame также имеет собственные числовые столбцы (нормализованные от 0 до 1).

категориальная переменная A приводит к 10 столбцам после OneHotEncoding
категориальная переменная B приводит к 200 столбцам после OneHotEncoding
категориальная переменная C приводит к 2790 столбцам после OneHotEncoding

Перед использованием алгоритма кластеризации (K-средние) имеет ли смысл применять весовой коэффициент к кодированным столбцам, например:

(псевдокод)

df = hstack (10 * A, 200 * B, 2790 * C)

чтобы придать одинаковую «силу» этим категориям?

Я заметил, что при этом оценка силуэта намного лучше.

Имеет ли смысл применять весовой коэффициент после кодирования OneHot?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Имеет ли смысл применять весовой коэффициент после кодирования OneHot?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы