Как рассчитать отзыв и точность в Entity Linking? - PullRequest
1 голос
/ 19 октября 2019

Я довольно озадачен тем, как рассчитать отзыв и точность в процессе связывания сущностей. Когда мы устраняем неоднозначность сущности в правильном смысле (T) или неправильном смысле (F), мы имеем только две ситуации. Но как мы можем получить эти четыре ситуации: TP, TN, FP, FN?

1 Ответ

0 голосов
/ 20 октября 2019

Это интересный вопрос. Я думаю, что причина, по которой ответ избегал вас, заключается в том, что для оценки вашего прогноза существует более двух правильных / не правильных ответов.

Связывание сущностей является формой мультиклассовая классификация , где может быть много возможных ответов, но только один из них является правильным. Следуя примеру в википедии, «Мне не нравится Париж» может означать «Париж, Франция», «Париж, Техас» или «Пэрис Хилтон».

Оценка эффективности мультиклассового классификатора следует из того, какВы набираете двоичный классификатор (который имеет только два возможных результата):

Таблица 1

             Actual
              0   1
Predicted 0  TN  FN
          1  FP  TP

Когда у вас есть это, вы можете отслеживать ставки, в TPR, FPR и т. д. для отзыва, точность и т. д., с которыми вы знакомы.

Чтобы оценить мультиклассовый классификатор, вам нужно оценить его для каждого возможного ответа (класса) и рассматривать все неправильные ответы как отрицательные . (ref: Microsoft , SciKitLearn )

Представьте, что A, B и C - три вышеприведенных парижских объекта (для удобства чтения). Я добавлю «двоичную обработку» рядом с классификацией, чтобы вы могли видеть, что оценка соответствует двоичной, точно так же, как указано выше.

Сначала вы должны получить оценку компоновщика для A: Paris France.

Таблица 2A

               Actual
               A   B   C
               1   0   0
Predicted A 1  TP  FP  FP
          B 0  FN  TN  TN
          C 0  FN  TN  TN

Следующая оценка B ответ:

Таблица 2B

              Actual
              A   B   C
              0   1   0
Predicted A 0 TN  FN  TN
          B 1 FP  TP  FP
          C 0 TN  FN  TN

Наконец, учитывая C

Таблица 2C

              Actual
              A   B   C
              0   0   1
Predicted A 0 TN  TN  FN
          B 0 TN  TN  FN
          C 1 FP  FP  TP

Конечно, в своем оценщике вы бы автоматизировали это лечение. Хорошие фреймворки имеют встроенные инструменты оценки, которые будут делать это под капотом.

(Кстати, я только что вообразил и создал эти таблицы как способ иллюстрации, поэтому извиняюсь за любые ошибки).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...