Может кто-нибудь объяснить, как работает этот скрипт mgiza? - PullRequest
0 голосов
/ 21 марта 2011
$:~/mgizapp/scripts$ ./plain2snt-hasvcb.py
Error, the input should be 
./plain2snt-hasvcb.py evcb fvcb etxt ftxt esnt(out) fsnt(out) evcbx(out) fvcbx(out)
You should concatenate the evcbx and fvcbx to existing vcb files

Может кто-нибудь объяснить, что все входные данные acrane для сценария plain2snt? скрипт из программы mgiza ++ для выравнивания слов от http://geek.kyloo.net/software/doku.php/mgiza:forcealignment

evcb =? # это файл source.vcb? fvcb =? # это файл target.vcb?

esnt (out) =? fsnt (out) =?

evcbx (out) =? fvcbx (out) =?

1012 * ОТВЕТ *

Мне удалось заставить его работать

$mkcls -n10 -psourcelangfile.vcb -Vsourcelangfile.vcb.classes
$mkcls -n10 -psourcelangfile.vcb -Vtargetlangfile.vcb.classes
$plain2snt sourcelangfile targetlangfile
$snt2cooc sourcelang_targetlang.cooc sourcelangfile.vcb targetlangfile.vcb sourcelangfile_targetlangfile.snt

1 Ответ

1 голос
/ 09 мая 2011

Исходя из моего (не эквивалентного) опыта работы с GIZA ++ и страницы, на которую вы ссылаетесь, я бы сказал, что evcb и fvcb - это сгенерированные вами английские и иностранные вокаб-файлы, а etxt и ftxt - это«Английский» и «иностранный» текстовые вводы.Тогда кажется, что esnt и fsnt являются выходными файлами предложений «English» и «Foreign» (возможно, предложения со словами, замененными их уникальными идентификаторами из файлов vcb).Наконец, evcbx и fvcbx, по-видимому, являются выходными местоположениями для расширения оригинальных вокаб-файлов путем конкатенации.

Я надеюсь, что это поможет, и я надеюсь, что кто-то еще, кто использовал MGIZA, может подсказать и исправить меня, если я ошибаюсь.

...