Рассмотрим следующее предложение:
Пески уже начали просачиваться в дно.
Дерево: (ROOT (S (NP (NNP Sands))) (VP (VBD)имел) (ADVP (RB уже)) (VP (VBN начался) (S (VP (TO to) (VP (VB Trickle)) (PP (IN в) (NP (DT в) (NN внизу)))))))) (...2), advmod (начат-4, уже-3), root (ROOT-0, начат-4), mark (trickle-6, to-5), xcomp (начат-4, trickle-6), case (внизу)-9, в-7), det (внизу-9, -8), nmod: в (струйка-6, внизу-9), пункт (начало-4,.-10)]
Может быть две причины сбоя анализатора зависимостей.
1) Здесь слово «пески» - это собственное существительное во множественном числе (NNPS), но вывод тега POS дает NNP, который является собственным существительным, поэтому существуетошибка в тэгере, которая, в свою очередь, распространяется на анализатор зависимостей, так как он использует POS для генерации зависимостей ". Чтобы справиться с этим случаем, вы можете обучить тэгера POS предложениям, которые он не выполняет.on.
2) Контекст предложения может быть совершенно новым для парсера зависимостей, так как большинство парсеров, таких как spacy, stanford, nltk и т. д., являются обученными моделями ML, поэтому для обработки этого случая вы можете обучитьанализатор зависимостей отдельно с новыми предложениями.
вы можете обратиться по этой ссылке, чтобы понять, как обучить POS-тегер и анализатор зависимостей: https://spacy.io/usage/training#section-tagger-parser
Надеюсь, он отвечает на ваши вопросы.