предварительно обученные статистические модели spaCy прошли обучение на большом корпусе общих новостей и веб-текста.Это означает, что распознаватель сущностей, вероятно, видел только очень мало строчных примеров, потому что это гораздо реже встречается в этих типах текстов.В английском языке заглавная буква также является сильным показателем для названного права (в отличие от немецкого языка, где все существительные обычно пишутся с заглавной буквы), поэтому модель, вероятно, обращает на это больше внимания.
Если вы работаете с текстомэто не имеет надлежащей капитализации, вы, вероятно, хотите настроить модель, чтобы быть менее чувствительной здесь.См. Документы по обновлению распознавателя именованных сущностей для получения более подробной информации и примеров кода.
Создание примеров обучения, надеюсь, не составит большого труда, поскольку вы можете использовать существующие аннотации и наборы данных или создатьодин с использованием предварительно обученной модели, а затем строчными буквами.Например, вы можете взять текст с правильной прописной буквой, запустить модель поверх него и извлечь все разрешенные интервалы в тексте.Далее вы строчными все тексты и обновите модель с новыми данными.Не забудьте также смешать текст с правильной капитализацией, потому что вы не хотите, чтобы модель учила что-то вроде: «Теперь все строчные! Капитализация больше не существует!».
Кстати, если у вас есть сущностиэто может быть определено с использованием списка или набора правил, вы также можете проверить EntityRuler
компонент .Он может быть объединен со средством распознавания статистических сущностей и позволит вам передать словарь точных совпадений или абстрактных шаблонов токенов, которые могут быть нечувствительными к регистру.Например, [{"lower": "nike"}]
будет соответствовать одному токену со строчной формой "nike", то есть "NIKE", "Nike", "nike", "NiKe" и т. Д.