Смешанная переменная (категориальная и числовая) функция расстояния - PullRequest
9 голосов
/ 07 августа 2011

Я хочу, чтобы нечеткий кластер состоял из заданий . Атрибуты вакансий :

  1. Категориальный : должность, диплом, навыки
  2. Числовой : зарплата, годыопыт работы

Мой вопрос: как рассчитать расстояние между различными заданиями?
Например, Работа1 (программист, компьютерные науки, (Java, .net, ответственность),1500, 3)
и job2 (тестировщик, bs информатика, (тестирование в черно-белой коробке), 1200,1)

PS: я новичок в кластеризации интеллектуального анализа данныхЯ высоко ценю вашу помощь.

Ответы [ 2 ]

3 голосов
/ 07 августа 2011

Вы можете принять это как отправную точку: http://www.econ.upf.edu/~michael/stanford/maeb4.pdf. Расстояние между категориальными данными хорошо поясняется в конце.

2 голосов
/ 09 августа 2011

Вот хороший обзор нескольких различных методов кластеризации и как их использовать в R: http://biocluster.ucr.edu/~tgirke/HTML_Presentations/Manuals/Clustering/clustering.pdf

Как правило, кластеризация для дискретных данных связана либо с использованием счетчиков (например, перекрытий в векторах), либо с некоторой статистикой, полученной из счетчиков. Как бы мне ни хотелось обратиться к статистической стороне, я полагаю, что вы заинтересованы в алгоритме, поэтому я оставлю это на этом.

...