В принципе, способ, которым вы пытаетесь решить катастрофу c забыл проблему, переучив ее на старых предсказаниях, кажется мне хорошим подходом.
Однако, если у вас есть дубликат версии одного и того же предложения, но аннотированные по-разному и передавая их в классификатор NER, вы можете спутать модель. Причина в том, что он не только смотрит на положительные примеры, но и явно рассматривает неаннотированные слова как отрицательные случаи.
Так что, если у вас есть «Боб живет в Лондоне», и вы только комментируете «Лондон», то он будет думать, что Боб определенно не NE. Если затем у вас есть второе предложение, в котором вы аннотируете только Боба, он «отучится» от того, что Лондон - NE, потому что теперь он не аннотирован как таковой. Поэтому согласованность действительно важна.
Я бы предложил реализовать более продвинутый алгоритм для разрешения конфликтов. Один из вариантов - всегда брать аннотированный объект с самым длинным Span
. Но если промежутки часто совпадают, вам может понадобиться пересмотреть схему маркировки. Какие объекты сталкиваются чаще всего? Я бы взял на себя ORG и OrgName? Вам действительно нужна ORG? Возможно, эти два могут быть «объединены» как один и тот же объект?