Несколько вопросов к лексизированному, не лексизированному и синтаксическому анализатору RNN Стэнфорда - PullRequest
1 голос
/ 10 мая 2019

Я пишу магистерскую диссертацию о разборе немецких предложений со Стэнфордом и другими парсерами.Stanford Parser - отличный инструмент, и я получил хорошие результаты, так что спасибо всем вовлеченным людям!Но после прочтения статей, FAQ, Google и т. Д. У меня все еще остается вопрос без ответа:

1) Я тренирую Stanford Parser с помощью команды:

java -cp "*" -mx1g edu.stanford.nlp.parser.lexparser.LexicalizedParser -PCFG -vMarkov 3 -uwm 0 -headFinder edu.stanford.nlp.trees.LeftHeadFinder -train trainTreebank.txt -saveToSerializedFile output.ser.gz

Это работает, но я хочучтобы понять больше, что я на самом деле сделал там.Описание пакета edu.stanford.nlp.parser.lexparser в [https://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/parser/lexparser/package-summary.html#package.description], описывает 3 различных типа синтаксического анализатора Stanford: «Существует точный неупорядоченный вероятностный синтаксический анализатор без контекста (PCFG),вероятностный синтаксический анализатор лексических зависимостей и факторизованный, лексизированный синтаксический анализатор вероятностного контекста, который делает совместный вывод над произведением первых двух анализаторов. "

Согласно названию класса, которое я думал, я использоваллексизированный парсер, но при чтении «makeSerialized.csh» я предполагаю, что я использовал не лексический синтаксический анализатор с приведенной выше командой, верно?

2) Если мое предположение в (1) верно, как можноЯ тренирую и использую (тестирую) лексизированный парсер?В "makeSerialized.csh" есть два параметра "-goodFactored" и "-ijcai03", я думал, что это будет для получения лексического синтаксического анализатора, но согласно документам, я должен получить ЛУЧШИЕ результаты для немецкого языка с лексизированными парсерами,но мои результаты почти такие же, как с командой "-PCFG".

3) В чем разница между "-goodFactored" и "-ijcai03"?

4) Какого родапарсера / метода используется, когда вы удаляете параметр "-PCFG" (а также НЕ добавляете "-goodFactored" или "-ijcai03")?Это лексически или не лексикализировано?Я пробовал это, результаты были куда хуже по сравнению с разбором с параметром "-PCFG".

5) В FAQ и файле makeSerialized.csh часто встречается слово "factored" model,Я знаю не лексизированные и лексизированные парсеры / модели, но что подразумевается под «факторизованным» ?

6) Пакет также содержит RNN, но трудно понять, какой класс делает, что,В FAQ по пункту (6) используется класс «DVParser».Это RNN?Что означает «DV»?Дополнительно в пакет входит класс «nndep».Этот класс предназначен только для анализа структур зависимостей, а DVParser выполняет синтаксический анализ группы интересов?Почему nndep никак не упоминается в FAQ?

7) Чтобы ответить на некоторые из этих вопросов самостоятельно, я также попытался ввести java -cp "*" -mx1g edu.stanford.nlp.parser.lexparser.LexicalizedParser без каких-либо параметров, потому что в отношении FAQ я должен получить некоторую помощьтам, но я просто получаю сообщение об ошибке:

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.

(я всегда получаю это, так что, вероятно, не так уж и плохо), но я не получаю ничего другого, никакой помощи.Кто-нибудь знает почему?

Спасибо всем

Джонатан

...