Что такое хороший метрический или золотой набор машинного перевода - PullRequest
1 голос
/ 14 декабря 2011

Я начал изучать машинный перевод поисковых запросов и пытался придумать разные способы оценки моей системы перевода между итерациями и другими системами.Первое, что приходит на ум, - это получить перевод набора поисковых терминов от mturk от группы людей и сказать, что каждый из них действителен, или что-то в этом роде, но это будет дорого и, возможно, склонно к тому, что люди вводят плохие переводы,

Теперь, когда я пытаюсь придумать что-то более дешевое или лучшее, я решил спросить у StackOverflow идеи, если уже есть какой-то стандартный стандарт или кто-то пытался найти один из них раньше.Кто-нибудь знает, например, как Google Translate оценивает различные итерации своей системы?

Ответы [ 3 ]

2 голосов
/ 15 декабря 2011

Здесь есть некоторая информация, которая может быть полезна, поскольку она дает базовое объяснение метода оценки BLEU, который часто используется разработчиками для измерения качества системы MT.

Первая ссылка предоставляет базовуюобзор BLEU, а второй указывает на некоторые проблемы с BLEU с точки зрения его ограничений.

http://kv -emptypages.blogspot.com / 2010/03 / потребность в автоматическом измерении качества.html

и

http://kv -emptypages.blogspot.com / 2010/03 / problem-with-bleu-and-new-translation.html

Есть также несколько очень конкретных прагматических советов о том, как разработать полезный набор тестов по этой ссылке: сайт AsiaOnline.Net в новостной рассылке за ноябрь.Я не могу вставить эту ссылку, так как существует ограничение в два раза.

1 голос
/ 15 декабря 2011

Я бы предложил уточнить ваш вопрос.Существует множество показателей для машинного перевода, и это зависит от того, что вы пытаетесь сделать.В вашем случае, я полагаю, что проблема просто сформулирована так: «Учитывая набор запросов на языке L1, как я могу измерить качество переводов на L2 в контексте веб-поиска?»

Этов основном, межъязыковой поиск информации.

Здесь важно понимать, что вам на самом деле не нужно предоставлять пользователю перевод запроса: вы хотите получить результаты что они могли бы получить хороший перевод запроса.

Для этого вы можете просто измерить несоответствие списков результатов между переводом уровня Gold и результатом вашей системы.Существует множество метрик для ранговой корреляции, перекрытия наборов и т. Д., Которые вы можете использовать.Дело в том, что вам не нужно оценивать каждый перевод, а просто оценивать, дает ли автоматический перевод те же результаты, что и человеческий перевод.

Что касается людей, предлагающих плохие переводы, вы можете оценить, является ли предполагаемое золотоСтандартные кандидаты имеют схожие списки результатов (т. е. с учетом 3 ручных переводов согласны ли они с результатами? Если нет, используйте 2, которые больше всего пересекаются).Если это так, то это фактически синонимы с точки зрения ИК.

0 голосов
/ 05 апреля 2018

В нашей оценке MT мы используем показатель hLEPOR (см. Слайды)

...