Оценка Танимото и когда она используется - PullRequest
2 голосов
/ 30 декабря 2010

Я прочитал вики статью , в которой описывается индекс Жакара и объясняется оценка Танимото как расширенный индекс Жакара, но что именно он пытается сделать?

Чем он отличается от других показателей сходства?

Когда это используется?

Спасибо

Ответы [ 2 ]

4 голосов
/ 05 января 2011

Я только что прочитал статью в Википедии, так что я могу интерпретировать только контент для вас.

Оценка по Жаккарду используется для векторов, которые принимают дискретные значения, чаще всего для двоичных значений (1 или 0). Счет Танимото используется для векторов, которые могут принимать непрерывные значения. Он спроектирован так, что, если вектор принимает значения только 1 и 0, он работает так же, как и по Джакарду.

Я полагаю, что вы будете иметь Танимото, когда у вас есть «смешанный» вектор, который имеет некоторые непрерывно значные части и некоторые двоичные значения.

0 голосов
/ 26 ноября 2018

что именно он пытается сделать?

Оценка Tanimoto предполагает, что каждый объект данных является вектором атрибутов.Атрибуты могут быть или не быть двоичными в этом случае.Если они все двоичные, метод Танимото сводится к методу Джакарда.

T(A,B)= A.B/(||A||2 + ||B||2 - A.B)

В уравнении A и B - это объекты данных, представленные векторами.Показатель сходства представляет собой точечное произведение A и B, деленное на квадрат величин A и B, за вычетом точечного произведения.

Чем оно отличается от других показателей сходства?

  1. Tanimoto v / s Jaccard : если атрибуты двоичные , Tanimoto сводится к индексу Jaccard.

Существуют различные оценки сходствадоступно, но давайте сравним с наиболее часто используемыми.

Tanimoto v / s Dice :

Коэффициент Tanimoto определяется по количеству атрибутов, общих для обоих объектов данных (пересечение строк данных) по сравнению с количеством атрибутов в ( объединение объектов данных ).

Коэффициент Dice - это числоатрибутов, общих для обоих объектов данных, относительно среднего размера общего числа присутствующих атрибутов , т. е. (точка пересечения B) / 0,5 (A + B)

D(A,B) = A.B/(0.5(||A||2 + ||B||2))
Tanimoto v / s Cosine

Чтобы найти сходство косинусов между двумя объектами данных, необходимо, чтобы оба объекта представляли свои атрибуты в векторе.Затем сходство измеряется как угол между двумя векторами.

Cos(θ) = A.B/(||A||.||B||)

Можно также сослаться на Когда два объекта могут иметь одинаковые значения Танимото и Косинуса.

Tanimoto v / s Pearson :

Коэффициент Пирсона - это сложный и сложный подход к нахождению сходства.Метод генерирует линию «наилучшего соответствия» между атрибутами в двух объектах данных.Коэффициент Пирсона находится по следующему уравнению:

p(A,B) = cov(A,B)/σAσB

где, cov (A, B) -> Ковариация

σ A -> Стандартное отклонение A

σ B -> Стандартное отклонение B

Коэффициент определяется путем деления ковариации на произведение стандартных отклонений атрибутов двух объектов данных.Это более устойчиво к данным, которые не нормализованы.Например, если один человек оценил фильмы «a», «b» и «c» со счетами 1, 2 и 3 соответственно, у него была бы идеальная корреляция с тем, кто оценил те же фильмы с 4, 5,и 6.

Для получения дополнительной информации о баллах Tanimoto и других баллах / коэффициентах сходства вы можете обратиться: Почему индекс Tanimoto является подходящим выбором для расчета сходства на основе отпечатков пальцев?

Когда это используется?

Счет Танимото может использоваться в обеих ситуациях:

  • Когда атрибуты являются двоичными
  • Когдаатрибуты не являются двоичными

В следующих приложениях широко используется оценка Танимото:

  • хемоинформатика
  • кластеризация
  • обнаружение плагиата
  • Автоматическое извлечение тезауруса
  • Для визуализации многомерных наборов данных
  • Анализ транзакционных данных в рыночной корзине
  • Обнаружение аномалий в пространственно-временных данных
...