Руководство по извлечению объектов в неструктурированном документе с Python - PullRequest
1 голос
/ 24 апреля 2019

История проекта: я новичок в НЛП, поэтому, пожалуйста, прости меня, если моя проблема кажется неоправданно сложной.Я пытаюсь извлечь некоторые функции, такие как названия компаний, некоторую денежную стоимость и имена отдельных лиц, из публичного документа о листинге компании, большой объем текста (более 300 страниц).

Текст, проанализированный в программе, выглядит как-товот так: «В этом движении компания A Holdings (« Компания ») была спонсирована компанией B Limited. Председатель компании Джон Доу одобрил эту деятельность»

Ожидаемый результат выглядитПримерно так: Компания: Компания A Holdings Спонсор: Компания B Limited Председатель: Джон Доу

Поскольку все документы были представлены в формате PDF, я проанализировал их как текст.Я выполнил NER с помощью Spacy с документом, который у меня есть, и, основываясь на внешнем виде результата NER, он успешно распознал все сущности, которые мне были нужны.(IE признал компанию A Holdings, компанию B Limited и Джона Доу)

Как мне приблизиться к указанной цели?У меня нет большого количества файлов для обучения модели (в настоящее время около 30 документов), общее руководство или пример модулей о том, как решить эту проблему, было бы очень полезно.

Спасибо всем взаранее!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...