Основанное на ML доменное имя названное признание enitty (NER)? - PullRequest
2 голосов
/ 03 апреля 2012

Мне нужно создать классификатор, который идентифицирует NE в конкретной области. Так, например, если моим доменом является Хоккей или Футбол, классификатор должен пойти, чтобы принять NE в этом домене, но НЕ все местоимения, которые он видит на веб-страницах. Моя конечная цель - улучшить классификацию текста с помощью NER.

Для людей, работающих в этой области, подскажите, пожалуйста, как мне построить такой классификатор? спасибо!

Ответы [ 2 ]

1 голос
/ 03 апреля 2012

Если все, что вам нужно, это игнорировать местоимения, вы можете запустить любой POS-тегер, за которым следует любой алгоритм NER (популярной реализацией является пакет Stanford), а затем игнорировать любые именованные сущности, которые являются местоимениями.Однако местоимения могут относиться к именованным сущностям, которые могут оказаться, а могут и не оказаться важными для производительности вашего классификатора.Единственный способ сказать наверняка, что он попробует.

Слегка несвязанный комментарий - система NER, обученная данным, относящимся к конкретному домену (например, хоккей), с большей вероятностью подберет сущности из этого домена, потому что она увидитнекоторые сущности контекстов появляются в. В зависимости от системы, он может также подбирать сущности из других доменов (которые вам не нужны, если я правильно понимаю ваш вопрос) из-за синтаксиса, шаблонов слов и т. д.

0 голосов
/ 01 февраля 2019

Я думаю, что-то вроде AutoNER может быть полезно для этого.По сути, входные данные для системы - это текстовые документы из определенного домена и список доменных сущностей, которые вы хотите, чтобы система распознала (например, хоккеисты в вашем случае).

Согласно их результатам в этой статье , они хорошо справляются с распознаванием химических названий и названий болезней среди других.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...