Если все, что вам нужно, это игнорировать местоимения, вы можете запустить любой POS-тегер, за которым следует любой алгоритм NER (популярной реализацией является пакет Stanford), а затем игнорировать любые именованные сущности, которые являются местоимениями.Однако местоимения могут относиться к именованным сущностям, которые могут оказаться, а могут и не оказаться важными для производительности вашего классификатора.Единственный способ сказать наверняка, что он попробует.
Слегка несвязанный комментарий - система NER, обученная данным, относящимся к конкретному домену (например, хоккей), с большей вероятностью подберет сущности из этого домена, потому что она увидитнекоторые сущности контекстов появляются в. В зависимости от системы, он может также подбирать сущности из других доменов (которые вам не нужны, если я правильно понимаю ваш вопрос) из-за синтаксиса, шаблонов слов и т. д.