В общем:
Bleu измеряет точность : сколько слов (и / или n-грамм) в сгенерированных машиной сводках появилось в справочнике человекаитоги.
Руж измерение напоминания : сколько слов (и / или n-грамм) в справочных резюме человека появилось в сгенерированных машиной резюме.
Естественно - эти результаты дополняют друг друга, как это часто бывает в случае точности с отзывом.Если у вас будет много слов / нграмм из результатов системы, появившихся в человеческих ссылках, у вас будет высокий Bleu, и если у вас будет много слов / нграмм из ссылок человека, появившихся в системных результатах, у вас будет высокий Руж.
Есть нечто, называемое штраф за краткость , что очень важно и уже добавлено в стандартные реализации Bleu.Он наказывает системные результаты, которые короче, чем общая длина ссылки (подробнее об этом здесь ).Это дополняет поведение метрики n-граммы, которое фактически штрафует дольше, чем эталонные результаты, так как знаменатель растет, чем дольше результат системы.
Вы также можете реализовать нечто подобное для Rouge, но на этот раз штрафы системы приводят кдлиннее, чем общая длина ссылки, что в противном случае позволило бы им получить искусственно более высокие оценки по шкале Руж (поскольку чем длиннее результат, тем выше вероятность того, что вы попадете в какое-либо слово, встречающееся в ссылках).В Rouge мы делим на длину человеческих ссылок, поэтому нам потребовалось бы дополнительное наказание за более длинные системные результаты, которые могли бы искусственно повысить их показатель Rouge.
Наконец, вы можете использовать F1 меру чтобы метрики работали вместе: F1 = 2 * (Блю * Руж) / (Блю + Руж)