Для сравнений на уровне предложений используйте сглаженное значение BLEU
Стандартная оценка BLEU, используемая для оценки машинного перевода (BLEU: 4), действительно имеет смысл только на уровне корпуса, поскольку любое предложение, в котором нет хотя бы одного 4-граммового соответствия, получит оценку 0 .
Это происходит потому, что по своей сути BLEU - это просто среднее геометрическое точности n-грамм, которое масштабируется штрафом за краткость для предотвращения очень коротких предложений.с некоторыми соответствующими материалами из-за неоправданно высоких баллов.Поскольку среднее геометрическое рассчитывается путем умножения всех терминов, которые должны быть включены в среднее, наличие нуля для любого из n-граммовых отсчетов приводит к тому, что весь счет равен нулю.
Если вы хотите применить BLEUк отдельным предложениям лучше использовать сглаженный BLEU ( Lin and Och 2004 - см. раздел 4), в результате чего вы добавляете 1 к каждому из n-граммовых отсчетов, прежде чем вычислять точность в n-граммах,Это предотвратит нулевую точность любой n-граммы и, следовательно, приведет к ненулевым значениям, даже если нет совпадений в 4-граммах.
Реализация Java
Вы найдете реализацию Java как BLEU, так и гладкой BLEU в пакете машинного перевода Stanford Phrasal .
Альтернативы
Как уже упоминал Андреас, вы можете использовать альтернативную метрику оценки, например Расстояние редактирования строки Левенштейна .Однако одна проблема с использованием традиционного расстояния редактирования строки Левенштейна для сравнения предложений заключается в том, что он явно не знает границ слов.
Другие альтернативы включают:
- Коэффициент ошибок в словах - По сути, это расстояние Левенштейна, применяемое к последовательности слов, а не к последовательности символов.Широко используется для оценки систем распознавания речи.
- Коэффициент редактирования перевода (TER) - аналогичен коэффициенту ошибок в слове, но допускает дополнительное редактирование подкачкиоперация для смежных слов и фраз.Этот показатель стал популярным в сообществе машинного перевода, поскольку он лучше коррелирует с человеческими суждениями, чем с другими мерами сходства предложений, такими как BLEU.Самый последний вариант этой метрики, известный как Rate Edit Rate Plus (TERp) , позволяет сопоставлять синонимы с использованием WordNet, а также перефразировать последовательности из нескольких слов («умер» ~ ="kick the bucket").
- METEOR - Эта метрика сначала вычисляет выравнивание, которое позволяет произвольно переупорядочить слова в сравниваемых предложениях.Если существует несколько возможных способов выравнивания предложений, METEOR выбирает тот, который минимизирует перекрещивание краев выравнивания.Как и TERp, METEOR позволяет сопоставлять синонимы и перефразирования последовательностей из нескольких слов в WordNet.После выравнивания метрика вычисляет сходство между двумя предложениями, используя количество совпадающих слов для вычисления F-α показателя , сбалансированной меры точности и отзыва, которая затем масштабируется штрафом на суммупорядка слов, присутствующего в выравнивании.