На самом деле предложение Сарнольда не за горами.
Что вы обычно делаете, это собираете целую группу людей и заставляете их попробовать несколько стандартных запросов.Или, если вы хотите сделать эксперимент более справедливым, вы можете позволить каждому пользователю выбирать свои собственные запросы, чтобы избежать обвинения в предвзятости (потому что вы могли выбирать стандартные запросы, которые, как вы знали, ваш движок хорошо отвечал).
Для каждого запросапользователь просматривает первые 10 или около того результатов и говорит, считают ли они, что каждый результат является релевантным или нет (вы можете захотеть, чтобы пользователи оценивали по шкале, а не просто да / нет).
Затем для каждогоиз запросов вы можете рассчитать баллы точности, в зависимости от того, как именно вы настроили эксперимент. Точность и отзыв могут быть наиболее подходящими мерами, хотя они основаны на известном ожидаемом ответе, который вы не обязательно получите.Может быть проще и уместнее вычислить простой процент точности.
Чтобы определить, была ли ваша поисковая система лучше ваших конкурентов, у вас должны быть одни и те же люди, которые будут выполнять одинаковые запросы в тех же поисковых системах, набирающих одинаковые баллы.путь.Сделав это, вы можете затем рассчитать и сравнить баллы для поисковых систем со своими.