Обработка естественного языка - выравнивание слов - PullRequest
8 голосов
/ 11 марта 2010

Я ищу инструменты и алгоритмы выравнивания слов.
Я имею дело с двуязычным текстом на хинди, и в настоящее время работаю над

  • DTW (Динамическое искажение времени) алгоритм
  • CLA (алгоритм конкурентного связывания)
  • NATools
  • Giza ++

Не могли бы вы предложить любой другой алгоритм / инструмент, который не зависит от языка и который мог бы достичь Статистическое выравнивание слов для параллельного английского Hindi Corpora и его оценка .
Некоторые инструменты лучше всего подходят для определенных языков; не могли бы вы сказать мне, насколько это верно, и, если да, не могли бы вы привести пример того, что лучше подходит для азиатских языков, таких как хинди. Встречные примеры того, что не следует использовать для таких языков, также приветствуются.

Я немного слышал о Средстве выравнивания слов Uplug ... Может кто-нибудь сказать мне, полезен ли этот инструмент для моих целей.

Спасибо ..:)

Ответы [ 4 ]

5 голосов
/ 18 марта 2010

Berkeley Aligner очень хорош. Благодаря совместному обучению моделей выравнивания слов IBM, он может получить намного более низкую частоту ошибок выравнивания (AER), чем старые пакеты, такие как GIZA ++.

Он также поддерживает некоторые более продвинутые функции, такие как синтаксическое искажение (т. Е. Использование информации дерева разбора для получения лучшего выравнивания). Для этого вам понадобятся только деревья разбора для одной из языковых пар. Таким образом, вы должны хорошо понимать хинди <-> английский, так как есть много свободно доступных и хороших анализаторов английского языка.

Если вы решите не использовать Berkeley Aligner, вам, вероятно, стоит просто использовать GIZA ++. В течение многих лет он был по сути стандартным средством выравнивания слов в сообществе машинного перевода.

2 голосов
/ 14 мая 2010

Uplug - отличный инструмент, я использовал его для выравнивания текстов на английском <-> македонском. По сути, он основан на Giza ++, добавляя так называемые выравнивания ключей. Эта расширенная настройка фактически объединяет выравнивание ключей и Giza ++ и выполняет 3 таких итерации. Чем больше подсказок (pos-тэгов, лемм ...) вы предоставите, тем лучше будет результат. Но я должен отметить, что вы не должны ожидать, что получите принципиально иные результаты, чем просто с помощью Giza ++.

В любом случае, если вы планируете серьезно изучить тему SMT, я предлагаю вам прочитать статью (докторскую диссертацию) об Uplug, это будет очень полезно для вас.

0 голосов
/ 12 марта 2010

Моисей - это пакет статистического машинного перевода, на который вы, возможно, захотите взглянуть. Его компонент выравнивания слов построен на GIZA ++, но может быть настроен для лучшей работы с определенными парами языков, чем чистый GIZA ++. Их список рассылки и ресурсы, которые вы можете найти на http://www.statmt.org/, также могут быть лучшим местом для вопросов по этой теме, чем SO. Одна вещь, о которой вы ничего не сказали, но которую я бы посчитал еще более проблематичной, это где взять параллельный корпус хинди <-> английский.

0 голосов
/ 12 марта 2010
...