Распознавание вложенных именованных объектов с помощью Google Cloud NLP - PullRequest
0 голосов
/ 11 марта 2020

Мы можем выполнить простое распознавание именованных сущностей, загрузив документы в формате PDF, пометив простые сущности и обучив.

Но поддерживает ли платформа Google Cloud AutoML Распознавание вложенных именованных сущностей n ?

1 Ответ

1 голос
/ 17 марта 2020

Не по умолчанию. Из того, что я могу сказать, не обязательно есть стандартизированный метод для реализации распознавания вложенных именованных объектов, что может быть частью причины, по которой он не поддерживается. Я думаю, чтобы сделать это в рамках одного процесса, каждая аннотация должна иметь несколько аннотаций, что невозможно:

Каждая аннотация может содержать до десяти токенов (слов). Они не могут перекрываться; start_offset аннотации не может быть между start_offset и end_offset аннотации в том же документе. [ docs ]

Однако вы, вероятно, могли бы реализовать это самостоятельно, основываясь на вашем понимании вложенного NER. Обучите общую модель для извлечения первичных сущностей (более крупные содержащие сущности). Затем обучите вторичную модель для извлечения вторичных сущностей (сущностей внутри первичной сущности). Запустите вторичную модель только на выходах первичной модели. Потенциально вы должны также реализовать некоторые условия, такие как количество токенов.

...