что именно он пытается сделать?
Оценка Tanimoto предполагает, что каждый объект данных является вектором атрибутов.Атрибуты могут быть или не быть двоичными в этом случае.Если они все двоичные, метод Танимото сводится к методу Джакарда.
T(A,B)= A.B/(||A||2 + ||B||2 - A.B)
В уравнении A и B - это объекты данных, представленные векторами.Показатель сходства представляет собой точечное произведение A и B, деленное на квадрат величин A и B, за вычетом точечного произведения.
Чем оно отличается от других показателей сходства?
- Tanimoto v / s Jaccard : если атрибуты двоичные , Tanimoto сводится к индексу Jaccard.
Существуют различные оценки сходствадоступно, но давайте сравним с наиболее часто используемыми.
Tanimoto v / s Dice :
Коэффициент Tanimoto определяется по количеству атрибутов, общих для обоих объектов данных (пересечение строк данных) по сравнению с количеством атрибутов в ( объединение объектов данных ).
Коэффициент Dice - это числоатрибутов, общих для обоих объектов данных, относительно среднего размера общего числа присутствующих атрибутов , т. е. (точка пересечения B) / 0,5 (A + B)
D(A,B) = A.B/(0.5(||A||2 + ||B||2))
Tanimoto v / s Cosine Чтобы найти сходство косинусов между двумя объектами данных, необходимо, чтобы оба объекта представляли свои атрибуты в векторе.Затем сходство измеряется как угол между двумя векторами.
Cos(θ) = A.B/(||A||.||B||)
Можно также сослаться на Когда два объекта могут иметь одинаковые значения Танимото и Косинуса.
Tanimoto v / s Pearson :
Коэффициент Пирсона - это сложный и сложный подход к нахождению сходства.Метод генерирует линию «наилучшего соответствия» между атрибутами в двух объектах данных.Коэффициент Пирсона находится по следующему уравнению:
p(A,B) = cov(A,B)/σAσB
где, cov (A, B) -> Ковариация
σ A -> Стандартное отклонение A
σ B -> Стандартное отклонение B
Коэффициент определяется путем деления ковариации на произведение стандартных отклонений атрибутов двух объектов данных.Это более устойчиво к данным, которые не нормализованы.Например, если один человек оценил фильмы «a», «b» и «c» со счетами 1, 2 и 3 соответственно, у него была бы идеальная корреляция с тем, кто оценил те же фильмы с 4, 5,и 6.
Для получения дополнительной информации о баллах Tanimoto и других баллах / коэффициентах сходства вы можете обратиться: Почему индекс Tanimoto является подходящим выбором для расчета сходства на основе отпечатков пальцев?
Когда это используется?
Счет Танимото может использоваться в обеих ситуациях:
- Когда атрибуты являются двоичными
- Когдаатрибуты не являются двоичными
В следующих приложениях широко используется оценка Танимото:
- хемоинформатика
- кластеризация
- обнаружение плагиата
- Автоматическое извлечение тезауруса
- Для визуализации многомерных наборов данных
- Анализ транзакционных данных в рыночной корзине
- Обнаружение аномалий в пространственно-временных данных