Технологии NER обычно работают лучше всего, когда сущности довольно короткие, и когда есть четкие подсказки в начале и в конце фраз. В обоих случаях речь идет о распознавании собственных имен в английском языке, что является каноническим вариантом использования алгоритмов.
Именной фразе «ступенька» или «решающий фактор» будет легко освоить систему NER. Система будет менее хороша в распознавании конструкций глагол + объект, так как глагол и объект могут быть произвольно далеко друг от друга, например, помешивая горшок, перемешивая металлический горшок, энергично перемешивая горшок и т. д. Вам также следует с осторожностью применять последовательные ярлыки к произвольным интервалам текста, которые не являются синтаксическими составляющими. Будет очень трудно описать, где должна располагаться граница фраз, поэтому ваши аннотаторы, вероятно, не будут вести себя последовательно. Нерешительность относительно точных границ фраз приведет к тому, что система NER будет работать очень плохо, потому что функции потерь, которые различаются одним словом, рассматриваются как совершенно разные промежутки с помощью функции потерь.
Наконец, чтобы ответить на ваш вопрос о POS и функциях анализа зависимостей: нет, мы не используем их в NER в настоящее время.
Возможно, вас заинтересует средство сопоставления дерева зависимостей, внесенное в эти два запроса:
Дополнительные улучшения в Matcher также помогут вам: https://github.com/explosion/spaCy/issues/1971