Аннотирующее предложение с тегами BILOU для spaCy - PullRequest
0 голосов
/ 05 июня 2018

Как мне аннотировать (определять объекты в) следующее предложение с помощью тегов BILOU?Особенно, как я должен обрабатывать специальные символы / знаки препинания, которые прикрепляются к словам без пробела, так как BILOU не обеспечивает положение символа?например, (Principal, (Co-investigator), Dr. и т. д.

Др.мед.XYZ DEF (главный следователь) XYZ ABC (со следователь), д-р мед.XYZ RST (независимый оценщик)

Должен ли я рассматривать (Principal как единое целое?

1 Ответ

0 голосов
/ 18 июня 2018

Для маркировки BILOU необходимо иметь предварительно токенизированный текст.То, является ли (Principal одним токеном или двумя, зависит от вашего токенизатора, но обычно он разделяется.

Вот пример использования BILOU spaCy с английской моделью по умолчанию и некоторыми основными тегами:

Dr.    O
med    O
.    O
XYZ    B-PERSON
DEF    L-PERSON
(    O
Principal    B-ROLE
Investigator    L-ROLE
)    O
XYZ    B-PERSON
ABC    L-PERSON
(    O
Co    B-ROLE
-    I-ROLE
investigator    L-ROLE
)    O
,    O
Dr.    O
med    O
.    O
XYZ    B-PERSON
RST    L-PERSON
(    O
Independent    B-ROLE
Rater    L-ROLE
)    O

Если вы используете spaCy, вы можете указать метки NER с диапазонами символов для тренировочных данных, которые должны помочь с вариациями ввода токенизатора.Подробнее см. учебная документация .

...