Berkeley Aligner очень хорош. Благодаря совместному обучению моделей выравнивания слов IBM, он может получить намного более низкую частоту ошибок выравнивания (AER), чем старые пакеты, такие как GIZA ++.
Он также поддерживает некоторые более продвинутые функции, такие как синтаксическое искажение (т. Е. Использование информации дерева разбора для получения лучшего выравнивания). Для этого вам понадобятся только деревья разбора для одной из языковых пар. Таким образом, вы должны хорошо понимать хинди <-> английский, так как есть много свободно доступных и хороших анализаторов английского языка.
Если вы решите не использовать Berkeley Aligner, вам, вероятно, стоит просто использовать GIZA ++. В течение многих лет он был по сути стандартным средством выравнивания слов в сообществе машинного перевода.