Недавно я проводил исследование, связанное с обобщением текста, и обучил простой модели. Я хочу использовать ROUGE для проверки правильности модели, и я получил следующие результаты.
1 ROUGE-1 Среднее_R: 0,41775
1 ROUGE-1 Average_P: 0,39336
1 ROUGE-1 Среднее_F: 0,39289
1 ROUGE-2 Среднее_R: 0,18253
1 ROUGE-2 Среднее_P: 0,17314
1 ROUGE-2 Среднее_F: 0,17203
1 ROUGE-3 Average_R: 0.10546
1 ROUGE-3 Среднее_P: 0,10178
1 ROUGE-3 Среднее_F: 0,10011
1 ROUGE-4 Среднее_R: 0,07039
1 ROUGE-4 Среднее_P: 0,06904
1 ROUGE-4 Среднее_F: 0,06724
...
И это показывает, что оценка ROUGE_F меньше, чем ROUGE_P и ROUGE_R?
Кто-нибудь знает почему?