Добавить язык в анализатор Стэнфорда - PullRequest
2 голосов
/ 29 сентября 2011

Я хотел бы использовать синтаксический анализатор Стэнфорда на другом языке, который еще не реализован.

Я посмотрел на веб-сайте, но не нашел ничего, что могло бы помочь мне в этом.

Я думаю, что у меня есть«просто» создать новый languagePCFG.ser, но сделать это?

Кроме того, если кто-нибудь знает, предполагается ли выпуск французского и испанского языков?

1 Ответ

5 голосов
/ 30 сентября 2011

Необходимо несколько вещей:

  • Вам нужен древовидный банк (набор разборенных вручную деревьев), из которого рассчитываются вероятности, используемые в синтаксическом анализаторе
  • Вам нужны файлы для конкретного языка (например, xLanguagePack, xTreebankParserParams, которые определяют особенности языка, кодировки древовидного банка и параметров синтаксического анализа
  • Затем вы обучаете синтаксический анализатор на древовидном банке для создания файла грамматики (см. MakeSerialized.csh в дистрибутиве)
  • Вам может понадобиться токенайзер для конкретного языка, чтобы разделить текст на токены
  • Если вы хотите выводить зависимости Стэнфорда, то также существует слой на основе правил, который определяет зависимости

Начиная с 2011 года, мы начали распространять французскую модель со Stanford Parser. А с 2015 года мы начали распространять испанскую модель.

...