Метрика расстояния для кластеризации элементов в разреженной матрице - PullRequest
2 голосов
/ 09 марта 2011

Я пытаюсь сгруппировать приблизительно 12000 элементов на основе приблизительно 1200 двоичных переменных с использованием K-средних.Ни одна из обычных метрик расстояния (евклидова, манхэттенская, хемминговская, левенштейновская) не дала удовлетворительных результатов.

Я разработал следующую метрику.x = 0 | y = 1) P (y = 0 | x = 1)

Кто-нибудь использовал подобный подход к этому типу проблемы?Есть ли очевидные недостатки в использовании этой метрики?Я относительно новичок в области интеллектуального анализа данных и буду признателен за любые отзывы.

Спасибо

Ответы [ 2 ]

1 голос
/ 26 декабря 2016

Вы можете использовать расстояние Жакара над двоичными атрибутами.Предположим, вы сравниваете 2 строки A и B.

M11 - is the number of attributes where both Ai=Bi=1
M01 - is the number of attributes where Ai=0 and Bi=1
M10 - is the number of attributes where Ai=1 and Bi=0

Коэффициент Жакара будет

J = M11/(M11+M10+M01)

Расстояние Жакара будет:

D=(M01+M10)/(M11+M10+M01) 
1 голос
/ 13 марта 2011

Какой домен вы пытаетесь смоделировать? Можете ли вы использовать идеи из домена для кластеризации? Очень мало что можно сказать в этом общем контексте. Я бы попробовал уменьшение размеров , чтобы сначала получить больше значимых функций, а потом кластеризоваться, но здесь может помочь использование знаний предметной области.

...