При выполнении вашего примера следует отметить две вещи:
- Пространственные модели - это статистически обученные модели, которые в отдельности имеют указанную c точность POS , в этом дело около 97%. Следовательно, некоторых ошибок всегда следует ожидать, особенно когда вы имеете дело с корпусом самых разнообразных предложений.
- Разумеется, Spacy может предоставлять значимые теги, только если предложение грамматически правильно, что не так для приведенного выше примера.
Когда я запускаю исправленное предложение «Дракон летит, чтобы спасти принцессу», выводом будет
The DET
dragon NOUN
flies VERB
to PART
rescue VERB
the DET
princess NOUN
. PUNCT
и, следовательно, именно то, что мы ожидали. Если ваш набор данных содержит предложения, которые имеют дело с такими ошибками syntacti c, «самым простым» решением, вероятно, было бы ручное аннотирование некоторых примеров и использование обучающей функциональности Spacy, подробности об этом можно найти здесь . Даже в этом случае не гарантируется, что вы получите значительно лучшие результаты, если вы не аннотируете большое количество данных, и можете утверждать, что в большинстве примеров есть ошибки, похожие на похожие.