Как уже говорилось, я хотел бы использовать такие переменные, как p и косинус-тета, чтобы получить точную дискретную двоичную метку: 0 или 1.
Вот онодействительно сводится к тому, что вы подразумеваете под точностью.Вам решать, как перекрытие влияет на то, совпадают ли две строки, если у вас нет маркированного набора данных.Если у вас есть помеченный набор данных (т. Е. Набор пар строк вместе с меткой 0 или 1), то вы можете обучить алгоритм двоичной классификации и попытаться оптимизировать на его основе.Я бы порекомендовал что-то вроде нейронной сети или SVM из-за потенциально многомерного, категоричного характера вашей проблемы.
Однако даже оптимизация является субъективной мерой.Например, теоретически давайте представим, что у вас есть модель, которая из 100 выборок предсказывает только 1 ответ (давая 99 неизвестных).Технически, если этот один ответ правильный, то это модель со 100% точностью, но с очень низкой отзыв .Обычно в машинном обучении вы найдете компромисс между отзывом и точностью.
Некоторым людям нравится выбирать определенные метрики, которые объединяют два (наиболее известным из которых является F1 балл ), но, честно говоря, это зависит от приложения.Если у меня маркетинговая кампания с фиксированным бюджетом, то я больше беспокоюсь о точности - я бы хотел ориентироваться только на потребителей, которые могут купить мой продукт.Однако, если мы ищем тест на смертельную болезнь или маркеры мошенничества в банке, то этот тест может быть точным только в 10% случаев - если его отзыв о реальных положительных результатах где-то близок к 100%.
Наконец, если у вас нет помеченных данных, тогда вам лучше всего определить какое-то предельное значение, которое, по вашему мнению, указывает на хорошее совпадение.Тогда это будет более аналогично проблеме бинарной кластеризации, и вы можете использовать более абстрактную меру, например расстояние до центроида, чтобы проверить, к какому кластеру («связанному» или «не связанному» кластеру) принадлежит точка.Однако обратите внимание, что здесь ваши функции чувствуются так, что их было бы невероятно сложно определить.