Кластеризация категориальных значений в R - PullRequest
0 голосов
/ 16 октября 2018

Мне нужно кластеризовать смешанные данные (2 столбца: 1 - числовой и 2 - строковый).Есть ли в R или Python пакет, который будет обрабатывать кластеризацию смешанных или категориальных данных?

Спасибо!

1 Ответ

0 голосов
/ 16 октября 2018

С помощью RI предлагается использовать функцию daisy из пакета cluster.

Вы можете иметь matrix смешанных типов данных, номинально-порядковый-числовой.

Если данные смешаны, он вычисляет расстояние gower для каждой переменной, в основном каждое номинальное значение преобразуется в числовое значение, а различие измеряется средним взвешиванием вклада каждого.

Может использоватьсядаже если все переменные являются числовыми, в этом случае он будет использовать стандартные метрики.

См. страницу справки для получения дополнительной информации и примеров.

Здесь введение в расстояние газонокосилки.

...