Нечеткий с- означает категориальные данные - PullRequest
1 голос
/ 08 октября 2011

Может ли нечеткое с-среднее применяться к нечисловым наборам данных?то есть категориальные или смешанные числовые и категориальные .. если да (надеюсь, что так (():

  • как мы рассчитываем центры кластеров?

Если НЕТ, какова альтернатива.. как нечеткие кластеры этих данных?

Мне нужен ответ, пожалуйста, помогите

ПРИМЕЧАНИЕ: Я использовал коэффициент Жакара для расчета расстояния между 2 точками, но все еще не получилСпособ расчета центров кластера см. в приложениях enter image description here jacard coefficient

1 Ответ

4 голосов
/ 08 октября 2011

Вам придется преобразовать ваши данные в числовую форму. Существуют различные способы сделать это, два из них:

  • использовать векторы количества признаков (обычно, например, в текстовой категоризации)
  • использует представление в горячем виде, где категориальная особенность, которая может принимать n различных значений, представлена ​​в виде строки из n битов, только с i бит устанавливается, если объект имеет значение i в разрешенном диапазоне.

Обе являются очень распространенными преобразованиями, которые делают многие программы машинного обучения под капотом. Кроме того, вы можете поэкспериментировать с метрикой, отличной от евклидовой. Особенно с горячим представлением, но в зависимости от данных, может быть более подходящей норма L1 (расстояние от Манхэттена до городского квартала).

Кроме того, просто примените данные формулы к преобразованному набору данных.

...