Как интерпретировать числа P, которые генерирует fairseq? - PullRequest
0 голосов
/ 20 марта 2020

Используя fairseq-generate.py с архитектурой преобразователя, каждый перевод создает такой раздел:

Why is it rare to discover new marine mammal species?
S-0     Why is it rare to discover new marine mam@@ mal species ?
H-0     -0.0643349438905716     Pourquoi est-il rare de découvrir de nouvelles espèces de mammifères marins?
P-0     -0.0763 -0.1849 -0.0956 -0.0946 -0.0735 -0.1150 -0.1301 -0.0042 -0.0321 -0.0171 -0.0052 -0.0062 -0.0015

С этим объяснением :

H - гипотеза наряду со средним логарифмическим правдоподобием; и P - это позиционная оценка на позицию токена, включая маркер конца предложения

Мне интересно, разумно ли говорить, что низкое (абсолютное) число в строке P означает более высокую достоверность в этом конкретном слове? Например, -0,07 для «Pourquoi» означает, что он был счастливее, чем (-0,1849) для «Est-il»? А низкий -0,0015 в конце означает, что он действительно уверен, что предложение должно заканчиваться там.

Справочная информация: я пытаюсь понять, могу ли я использовать либо число H, либо каким-либо образом использовать отдельные цифры P, чтобы получить меру доверия в его переводе. Я анализировал несколько переводов по отношению к числу H и не заметил большого соответствия между ним и моим субъективным мнением о качестве перевода. Но у меня есть пара, где я думал, что это было особенно плохо - она ​​пропустила немного ключевой информации - и окончательное число P было относительно высоким -0.6099 и -0.3091 (конечное число P равно -0.11 или около того на большинстве из них.)

...