Возможно ли извлечь лиц, связанных с указанными организациями? - PullRequest
0 голосов
/ 27 сентября 2019

Я новичок в извлечении текста, и я хотел бы извлечь названия компаний из текста и людей, связанных с компанией.Я думаю об использовании Spacy для извлечения этих отдельных частей, но я не уверен, смогу ли я найти ассоциации, так как в одном и том же тексте будут упомянуты несколько компаний и людей.Например, из следующего текста:

Возняк покинул Apple в 1983 году из-за уменьшающегося интереса к повседневной работе Apple Computers.Затем Джобс нанял президента PepsiCo Джона Скалли на пост президента.Тем не менее, этот шаг провалился, и после долгих споров со Скалли Джобс ушел в 1985 году и перешел к новым и более важным вещам.Он основал свою собственную компанию NeXT Software, а также купил Pixar у Джорджа Лукаса

. Я хотел бы привлечь компании и людей для создания ассоциаций (как минимум): Apple - Возняк, PepsiCo -Джон Скалли, Джобс - NeXT Software, Pixar - Джордж Лукас.

Любое руководство будет оценено, спасибо.

1 Ответ

0 голосов
/ 27 сентября 2019

Зависит от того, насколько коварны ваши данные.Сначала я бы начал с эвристики, использующей Spacy, и сопоставлял бы сущности PERS с ближайшей сущностью ORG.Это может привести к хорошим результатам.

Если это не работает достаточно хорошо.Я бы порекомендовал вручную исправить выходные данные этого алгоритма и попробовать обучить классификатор с помощью BERT (с пакетом transformers это проще, чем вы думаете).Но для этого вам понадобится несколько сотен аннотированных пар.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...