Распознавание именованных сущностей с использованием контекста предложения - PullRequest
1 голос
/ 01 апреля 2019

У меня есть проблема, в которой я хочу знать, как мы можем извлечь или назвать сущность на основе контекста, в котором она используется в предложении.

Например: если нам нужно извлечь поле даты, которое используется только в контексте даты рождения, то как мы можем это сделать?

Я знаю, что мы можем использовать регулярное выражение, spacy, NLTK для извлечения поля даты из документа. Но я не могу определить подход к извлечению даты на основе контекста, в котором она используется.

Пример 1. Мой день рождения 9 декабря. Здесь 9 декабря будет помечено как поле даты, если мы используем spacy или regex, но я хочу, чтобы оно было помечено как пользовательская сущность «дата рождения». Пример 2: я иду в кино 1 апреля. Здесь 1 апреля должно быть помечено как обычное поле даты.

1 Ответ

0 голосов
/ 01 апреля 2019

Распознавание именованных объектов, как определено только как маркировка смежных сегментов предложений и присвоение им метки из предопределенного набора. Автоматически распознаваемые распознаватели (например, те, что используются в spacy) действительно используют контекст всего предложения, однако, как только модель обучена, вы не можете добавить новые метки, такие как «дата рождения». Если у вас большой корпус, где такие объекты аннотированы, вы можете переобучить пространственную модель, чтобы она могла использовать ваши метки.

Возможно, слишком тяжелая техника использовала бы некоторые методы извлечения знаний , которые в основном связывают распознанные сущности и присваивают им некоторые семантические метки. В вашем случае это будет что-то вроде: [PERSON] (was born on) [DATE].

В любом случае, если задачу, которую вы хотите решить, так же просто, как переименовать сущность в определенном контексте, я бы написал набор правил для конкретного случая. Примерно так: если у сущности дата, а в предложении есть «рожден» или «рожден», то это ваша сущность с датой рождения. Или вы можете сделать более причудливые правила, основанные на разборе зависимостей, которые вы получаете также от spacy.

...