Я работаю над проектом, в котором пытаюсь создать именованный распознаватель сущностей из текстов.Поэтому я хочу построить и экспериментировать с NER тремя различными способами.
Во-первых, я хочу построить его, используя только сегментированные предложения-> токенизированные слова.Чтобы уточнить, я хочу вводить только разделенные / токенизированные слова в систему.Еще раз, система NER основана на правилах.Следовательно, он может использовать только правила, чтобы сделать вывод, какой объект является именованным.В первом NER у него не будет никакой информации о чанках или части речевого ярлыка.Просто размеченные слова.Здесь эффективность не является проблемой.Скорее проблема заключается в сравнении 3 разных NER, как они работают.(Тот, о котором я спрашиваю, является первым).
Я какое-то время думал об этом и не мог придумать какие-либо правила или идеи для решения этой проблемы.Один из наивных подходов заключался бы в том, чтобы заключить все слова, начинающиеся с заглавной буквы, и которые не следуют за точкой, чтобы быть именованным объектом.
Я что-то упустил?Любые советы или рекомендации помогут.