FastAlign является реализацией IBM Model 2 , оценка - это вероятность, оцененная этой моделью. Детали модели очень хорошо объяснены в этих слайдах из JHU .
Оценка - это вероятность исходного предложения с учетом слов целевого предложения и выравнивания. Алгоритм итеративно оценивает:
- Вероятности перевода друг друга (практически для всех) пар исходного и целевого языков.
- Оптимальное выравнивание по словувероятности перевода слова.
В этом случае оценка является произведением вероятностей перевода слова в слово с выравниванием, к которому сходился алгоритм. Таким образом, теоретически, это должно коррелировать с тем, насколько параллельны предложения, но есть много способов, которыми это может нарушиться. Например, редкие слова имеют ненадежные оценки вероятности. Другая проблема может заключаться в том, что некоторые слова (такие как «of») могут быть частью многословных выражений, которые являются одним словом в других языках, что также искажает оценки вероятности. Поэтому неудивительно, что вероятности нельзя доверять.
Если ваша цель - отфильтровать параллельный корпус и удалить неправильно выровненные пары предложений, я бы порекомендовал что-то еще. Например, вы можете использовать Многоязычный BERT, как это было в газете Google , где они центрировали векторы для многоязычного поиска. Или просто гугл "параллельная фильтрация корпусов".