Для маркировки BILOU необходимо иметь предварительно токенизированный текст.То, является ли (Principal
одним токеном или двумя, зависит от вашего токенизатора, но обычно он разделяется.
Вот пример использования BILOU spaCy с английской моделью по умолчанию и некоторыми основными тегами:
Dr. O
med O
. O
XYZ B-PERSON
DEF L-PERSON
( O
Principal B-ROLE
Investigator L-ROLE
) O
XYZ B-PERSON
ABC L-PERSON
( O
Co B-ROLE
- I-ROLE
investigator L-ROLE
) O
, O
Dr. O
med O
. O
XYZ B-PERSON
RST L-PERSON
( O
Independent B-ROLE
Rater L-ROLE
) O
Если вы используете spaCy, вы можете указать метки NER с диапазонами символов для тренировочных данных, которые должны помочь с вариациями ввода токенизатора.Подробнее см. учебная документация .