Как интерпретировать оценку выравнивания из инструмента выравнивания fast_align? - PullRequest
1 голос
/ 08 октября 2019

Я использую инструмент выравнивания fast_align: https://github.com/clab/fast_align,, чтобы получить межсловное выравнивание параллельного корпуса. Существует возможность распечатать счет выравнивания - как мне интерпретировать этот счет? Измеряет ли оценка степень соответствия между параллельными предложениями? Я знаю, что некоторые предложения в корпусе хорошо выровнены, а другие нет, но пока я не вижу никакой корреляции между оценкой и тем, насколько хорошо они выровнены. Должен ли я корректировать количество слов в предложении?

1 Ответ

1 голос
/ 09 октября 2019

FastAlign является реализацией IBM Model 2 , оценка - это вероятность, оцененная этой моделью. Детали модели очень хорошо объяснены в этих слайдах из JHU .

Оценка - это вероятность исходного предложения с учетом слов целевого предложения и выравнивания. Алгоритм итеративно оценивает:

  1. Вероятности перевода друг друга (практически для всех) пар исходного и целевого языков.
  2. Оптимальное выравнивание по словувероятности перевода слова.

В этом случае оценка является произведением вероятностей перевода слова в слово с выравниванием, к которому сходился алгоритм. Таким образом, теоретически, это должно коррелировать с тем, насколько параллельны предложения, но есть много способов, которыми это может нарушиться. Например, редкие слова имеют ненадежные оценки вероятности. Другая проблема может заключаться в том, что некоторые слова (такие как «of») могут быть частью многословных выражений, которые являются одним словом в других языках, что также искажает оценки вероятности. Поэтому неудивительно, что вероятности нельзя доверять.

Если ваша цель - отфильтровать параллельный корпус и удалить неправильно выровненные пары предложений, я бы порекомендовал что-то еще. Например, вы можете использовать Многоязычный BERT, как это было в газете Google , где они центрировали векторы для многоязычного поиска. Или просто гугл "параллельная фильтрация корпусов".

...