Мой текст похож на
'Laboratories, Inc.'
Который маркируется как
Laboratories TOKEN
, SUFFIX
Inc. SPECIAL-1
Однако аннотации обычно не включают суффиксные символы, такие как '.'
Так что я попытался добавить правило суффикса для токенизации '.'
(r'[.]+$',)
, но оно не работает для строк типа 'In c.' или "св." которые помечены как SPECIAL-1. Проблема заключается в том, что проблема токенизации, как эта, приводит к тому, что значительное количество аннотаций игнорируется из-за этой проблемы смещения, что значительно сокращает ценные примеры во время обучения.
Любое предложение приветствуется.