Я хочу использовать Berkeley Aligner для некоторых исследований MT, которые я делаю, поскольку, по-видимому, он довольно легко превосходит GIZA ++ (32% -ное снижение ошибки выравнивания в некоторых сообщаемых результатах).По большей части выходные данные в каталоге «examples» Berkeley Aligner выглядят так же, как Moses делает с выходными файлами GIZA ++ (т. Е. С парными выровненными индексами слов), но есть некоторые забавно выглядящие «-P» после определенных пар.Я не могу на всю жизнь найти документацию о том, что эти «-P» аннотации должны означать (конечно, не в каталоге «документации» Berkeley Aligner).
Для ясности я даммаленький наглядный пример.Предположим, у вас есть предложения: «Жан любит Мари» и «Мари любит Жан».Французский является исходным языком, а английский является целевым языком.Слова «Жан» (индексы 0 и 2, соответственно) и «Мари» (индексы 3 и 0, соответственно) выровнены в обоих предложениях, а также «plâit» и «а» (французские индексы 1 и 2 соответственно.) выровнены с «лайком» (английский индекс 1).В выводе GIZA ++, обработанном Моисеем, это будет обозначаться списком пар индекса источника-цели:
0-2 1-1 2-1 3-0
Berkeley Aligner создает файлы, которые очень похожи на это, но некоторые пары индексов имеют -Pна них (например, вы могли бы увидеть что-то вроде 1-1-P).
Какого черта это значит?Могу ли я безопасно удалить эти аннотации -P и получить выравнивание в стиле GIZA ++ - via-Moses, или я должен делать что-то большее (например, умножить их на ряд выровненных индексных пар или что у вас)?