варианты арки в Стэнфордском tagger? - PullRequest
1 голос
/ 22 июля 2010

кроме стандартных параметров арки, таких как left3words, left5words, двунаправленный, bi5words, что означают остальные параметры? И какие аргументы им нужны?

Кажется, я нигде не могу найти документацию!

1 Ответ

2 голосов
/ 03 августа 2010

Боюсь, что параметры arch в настоящее время задокументированы только в исходном коде: - (.

См. Классы ExtractorFrames и ExtractorFramesRare.

Первое, что нужно сделать, эточтобы посмотреть параметры арки, которые используются в распределенных тэгерах, вы можете найти их в файлах * .props в подкаталоге моделей.

Вкратце:

  • "generic"дает вам приличный базовый набор функций слова и тега (функции текущего, предыдущего и следующего слова, предыдущий тег и два предыдущих тега, а также соединения предыдущего тега и текущего слова и текущего и предыдущего слова). Это хорошее место для начала.
  • Существуют различные опции, которые включают целую кучу экстракторов, чтобы дать известные хорошие конфигурации для английского и китайского языков (двунаправленный, sighan2005, naacl2003unknowns).
  • Другие опции, часто с параметром, turnна наборы функций разумными способами, которые могут быть смешаны вместе. Вы можете увидеть это в определениях распределенного Чибиржи и арабские тегеры.Например, суффикс (6) включает в себя как все подстроки длиной до 6 слов.
...