Что такое "-P" в выходном формате Berkeley Aligner? - PullRequest
1 голос
/ 18 ноября 2010

Я хочу использовать Berkeley Aligner для некоторых исследований MT, которые я делаю, поскольку, по-видимому, он довольно легко превосходит GIZA ++ (32% -ное снижение ошибки выравнивания в некоторых сообщаемых результатах).По большей части выходные данные в каталоге «examples» Berkeley Aligner выглядят так же, как Moses делает с выходными файлами GIZA ++ (т. Е. С парными выровненными индексами слов), но есть некоторые забавно выглядящие «-P» после определенных пар.Я не могу на всю жизнь найти документацию о том, что эти «-P» аннотации должны означать (конечно, не в каталоге «документации» Berkeley Aligner).

Для ясности я даммаленький наглядный пример.Предположим, у вас есть предложения: «Жан любит Мари» и «Мари любит Жан».Французский является исходным языком, а английский является целевым языком.Слова «Жан» (индексы 0 и 2, соответственно) и «Мари» (индексы 3 и 0, соответственно) выровнены в обоих предложениях, а также «plâit» и «а» (французские индексы 1 и 2 соответственно.) выровнены с «лайком» (английский индекс 1).В выводе GIZA ++, обработанном Моисеем, это будет обозначаться списком пар индекса источника-цели:

0-2 1-1 2-1 3-0

Berkeley Aligner создает файлы, которые очень похожи на это, но некоторые пары индексов имеют -Pна них (например, вы могли бы увидеть что-то вроде 1-1-P).

Какого черта это значит?Могу ли я безопасно удалить эти аннотации -P и получить выравнивание в стиле GIZA ++ - via-Moses, или я должен делать что-то большее (например, умножить их на ряд выровненных индексных пар или что у вас)?

1 Ответ

1 голос
/ 18 ноября 2010

Я не знаю много об этом, но я сделал поиск по коду:

http://www.google.com/codesearch?hl=en&lr=&q=%22-P%22+package:http://berkeleyaligner.googlecode.com&sbtn=Search

    /**
     * Writes the sure and proposed alignments in a modified
     * version of the Pharaoh format.
     *
     * For example, if we have 7 sure alignments and two possibles, we get:
     *
     * enPos1-frPos1 enPos2-frPos2 ... enPos8-frPos8-P enPos9-frPos9-P
     *
     * here, the -P indicates possible alignments.
     */
    public String outputHard() {
            return dumpModifiedPharaoh(false);
    }

Кажется, что это «возможные» выравнивания.Это потому, что у вас установлен код для вывода «жестких» выравниваний в формате фараона (?).Похоже, вы можете решить использовать или сбросить параметры -P, или переключиться на «мягкий» вывод, который дает силу для каждой пары, а затем развернуть пороговый параметр.

...