Я бы предложил уточнить ваш вопрос.Существует множество показателей для машинного перевода, и это зависит от того, что вы пытаетесь сделать.В вашем случае, я полагаю, что проблема просто сформулирована так: «Учитывая набор запросов на языке L1, как я могу измерить качество переводов на L2 в контексте веб-поиска?»
Этов основном, межъязыковой поиск информации.
Здесь важно понимать, что вам на самом деле не нужно предоставлять пользователю перевод запроса: вы хотите получить результаты что они могли бы получить хороший перевод запроса.
Для этого вы можете просто измерить несоответствие списков результатов между переводом уровня Gold и результатом вашей системы.Существует множество метрик для ранговой корреляции, перекрытия наборов и т. Д., Которые вы можете использовать.Дело в том, что вам не нужно оценивать каждый перевод, а просто оценивать, дает ли автоматический перевод те же результаты, что и человеческий перевод.
Что касается людей, предлагающих плохие переводы, вы можете оценить, является ли предполагаемое золотоСтандартные кандидаты имеют схожие списки результатов (т. е. с учетом 3 ручных переводов согласны ли они с результатами? Если нет, используйте 2, которые больше всего пересекаются).Если это так, то это фактически синонимы с точки зрения ИК.