Выбранная вами модель обучена на выбранных данных, которые могут не представлять ваш собственный набор данных. Вы можете более тонко настроить модель, предоставив больше аннотированных данных для лучшего перекрытия.
Переформатирование текстовых данных также должно повысить производительность модели, поскольку предоставленный текст немного сложно понять в модели Spacy. Предложения разбиты на части, а не полностью читаемый текст, слова пишутся с заглавной буквы, хотя их и не должно быть.
Я не говорю по-французски, но немного переформатировал ваш текст и, похоже, уже получил лучшие результаты .
import spacy
nlp = spacy.load("fr_core_news_md")
text ="""Tous les vents, balayent les mots de coeur.
Moi, j'suis comme le vent: L'esprit à mille à l'heure, je juge sans doute trop vite.
C'est ok, tant pis.
C'est juste là, je m'agite.
Je grandis, l'amour aussi.
C'est au gré du vent.
Que j'aime vagabonder, moi, je suis comme le vent.
J'embrasse toute une armée de rêves et de bleuets,
Me plonger dedans je sais ce que je sais.
Rapport de: Andre STE-GERMAINE,
"""
doc = nlp(text)
for ent in doc.ents:
print(ent.text, '-',ent.label_)
Это приводит к:
Andre STE - PER
Я объясняю в комментариях к этому сообщению, почему человек не полностью помечен, но давайте сделаем это здесь еще раз. Последнее предложение этого текста на самом деле не является предложением, на котором Spacy NER действительно может работать точно, поскольку это не настоящее предложение, на котором обучались. Имя также полностью написано с заглавной буквы, что не является нормальным для чьей-либо фамилии, что также еще больше запутало алгоритм.
В заключение, предоставьте ему данные, на которых он обучается, переформатируйте свой текст, это повысит производительность значительно.