Я пытаюсь сгруппировать приблизительно 12000 элементов на основе приблизительно 1200 двоичных переменных с использованием K-средних.Ни одна из обычных метрик расстояния (евклидова, манхэттенская, хемминговская, левенштейновская) не дала удовлетворительных результатов.
Я разработал следующую метрику.x = 0 | y = 1) P (y = 0 | x = 1)
Кто-нибудь использовал подобный подход к этому типу проблемы?Есть ли очевидные недостатки в использовании этой метрики?Я относительно новичок в области интеллектуального анализа данных и буду признателен за любые отзывы.
Спасибо