Ваш вопрос не имеет одного ответа. В зависимости от домена есть лучшие практики.
Как только вы определились с метрикой подобия, кластеризация обычно выполняется путем усреднения или поиска медоида. См. Эти статьи по кластеризации двоичных данных для примеров алгоритма:
- Карлос Ордоньес. Кластеризация потоков двоичных данных с помощью K-средних. PDF
- Тао Ли. Общая модель кластеризации двоичных данных. PDF
Для получения информации о мерах подобия см. Этот онлайн «инструмент для измерения подобия между двоичными строками» . Они упоминают: Сокала-Микенера, Жакара, Рассела-Рао, Хаманна, Соренсена, АнтиДайса, Сниз-Сокала, Роджера-Танимото, Очиаи, Йоля, Андерберга, Кульчинского, Фи Пирсона и Гауэра2, Точечный продукт, Коэффициент косинуса, Расстояние Хэмминга.
Они также цитируют эти документы:
- Люк, Б. Т., Кластеризация бинарных объектов
- Лин Д., Информационно-теоретическое определение подобия.
- Toit, du S.H.C .; Steyn, A.G.W .; Штумпф, Р.Х .; Графический исследовательский анализ данных; Глава 3, с. 77, 1986; Springer-Verlag.
(мне лично нравится косинус. Есть также KL-дивергенция и ее аналог расстояния Дженсена.)