Я хочу использовать Python для вычисления сходства Жакара между различными кластерами. В моем наборе данных есть кластеры, которые уже помечены. Результатом должна быть матрица смежности в соответствии с кластером. Я видел вопрос о сходстве Jaccard между различными строками, но я до сих пор не знаю, какое значение мне рассчитать для каждого кластера и как с ним работать.
Вот мои наборы данных ниже: Есть только первые 5 строк, фактически более 3000 строк с 12 кластерами