Почему добавление не относящихся к делу документов улучшает производительность системы? И как оценить новый результат? - PullRequest
0 голосов
/ 01 мая 2020

Предположим, что система IR возвращает ранжированный список из 20 документов в ответ на запрос из коллекции из 10 000 документов. Если к коллекции добавить 5000 не относящихся к делу документов, мы обнаружим, что для запроса возвращается тот же самый ранжированный список. Это означает, что новый параметр, т. Е. Изменение размера коллекции на 15 000, не меняет отзыв и точность результатов 20. Тем не менее, похоже, что система работает лучше в новых условиях, поскольку необходимо обрабатывать больше не относящихся к делу документов.

1 Ответ

0 голосов
/ 02 мая 2020

Я не знаю, почему кто-то проголосовал против, лол, но я постараюсь ответить на этот вопрос, основываясь на своих мыслях.

<table border="1">
<tr>
  <td> </td>
  <td>relevant</td>
  <td>nonrelevant</td>
  <td> </td>
</tr>
<tr>
  <td>retrieved</td>
  <td>tp</td>
  <td>fp</td>
  <td>fix</td>
</tr>
<tr>
  <td>not retrieved</td>
  <td>fn</td>
  <td>tn</td>
</tr>
<tr>
  <td></td>
  <td></td>
  <td>increase tn</td>
</tr>

</table>
Добавление не относящихся к делу документов эквивалентно увеличению tn, поэтому новая мера может быть fn / (fn + tn)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...