Я хочу использовать основанный на правилах Matcher
(spaCy версия 2.0.12), чтобы найти в текстовых кодах, состоящих из 4 букв, за которыми следуют 4 цифры (например, CAPA1234
). Я пытаюсь использовать шаблон с атрибутом SHAPE
:
pattern = [{'SHAPE': 'XXXXdddd'}]
Вы можете проверить это самостоятельно с помощью Matcher Explorer на основе правил .
Он находит ожидаемые коды, но также и более длинные, такие как CAPABCD1234
или CAPA1234567
. XXXX
, кажется, означает 4 заглавные буквы или более , и то же самое относится к dddd
.
Есть ли настройка, чтобы форма точно соответствовала тексту?