История проекта: я новичок в НЛП, поэтому, пожалуйста, прости меня, если моя проблема кажется неоправданно сложной.Я пытаюсь извлечь некоторые функции, такие как названия компаний, некоторую денежную стоимость и имена отдельных лиц, из публичного документа о листинге компании, большой объем текста (более 300 страниц).
Текст, проанализированный в программе, выглядит как-товот так: «В этом движении компания A Holdings (« Компания ») была спонсирована компанией B Limited. Председатель компании Джон Доу одобрил эту деятельность»
Ожидаемый результат выглядитПримерно так: Компания: Компания A Holdings Спонсор: Компания B Limited Председатель: Джон Доу
Поскольку все документы были представлены в формате PDF, я проанализировал их как текст.Я выполнил NER с помощью Spacy с документом, который у меня есть, и, основываясь на внешнем виде результата NER, он успешно распознал все сущности, которые мне были нужны.(IE признал компанию A Holdings, компанию B Limited и Джона Доу)
Как мне приблизиться к указанной цели?У меня нет большого количества файлов для обучения модели (в настоящее время около 30 документов), общее руководство или пример модулей о том, как решить эту проблему, было бы очень полезно.
Спасибо всем взаранее!