Боюсь, что параметры arch в настоящее время задокументированы только в исходном коде: - (.
См. Классы ExtractorFrames и ExtractorFramesRare.
Первое, что нужно сделать, эточтобы посмотреть параметры арки, которые используются в распределенных тэгерах, вы можете найти их в файлах * .props в подкаталоге моделей.
Вкратце:
- "generic"дает вам приличный базовый набор функций слова и тега (функции текущего, предыдущего и следующего слова, предыдущий тег и два предыдущих тега, а также соединения предыдущего тега и текущего слова и текущего и предыдущего слова). Это хорошее место для начала.
- Существуют различные опции, которые включают целую кучу экстракторов, чтобы дать известные хорошие конфигурации для английского и китайского языков (двунаправленный, sighan2005, naacl2003unknowns).
- Другие опции, часто с параметром, turnна наборы функций разумными способами, которые могут быть смешаны вместе. Вы можете увидеть это в определениях распределенного Чибиржи и арабские тегеры.Например, суффикс (6) включает в себя как все подстроки длиной до 6 слов.