Имеет ли смысл применять весовой коэффициент после кодирования OneHot? - PullRequest
0 голосов
/ 29 октября 2018

После кодирования 3 категориальных переменных у меня есть DataFrame, содержащий 3000 столбцов, каждый со значениями 0 или 1.
Этот DataFrame также имеет собственные числовые столбцы (нормализованные от 0 до 1).

  • категориальная переменная A приводит к 10 столбцам после OneHotEncoding
  • категориальная переменная B приводит к 200 столбцам после OneHotEncoding
  • категориальная переменная C приводит к 2790 столбцам после OneHotEncoding

Перед использованием алгоритма кластеризации (K-средние) имеет ли смысл применять весовой коэффициент к кодированным столбцам, например:

(псевдокод)

df = hstack (10 * A, 200 * B, 2790 * C)

чтобы придать одинаковую «силу» этим категориям?

Я заметил, что при этом оценка силуэта намного лучше.

...