Question

Мы можем выполнить простое распознавание именованных сущностей, загрузив документы в формате PDF, пометив простые сущности и обучив.

Но поддерживает ли платформа Google Cloud AutoML Распознавание вложенных именованных сущностей n ?

MyNameIsCaleb · Answer 1 · 17 марта 2020

Не по умолчанию. Из того, что я могу сказать, не обязательно есть стандартизированный метод для реализации распознавания вложенных именованных объектов, что может быть частью причины, по которой он не поддерживается. Я думаю, чтобы сделать это в рамках одного процесса, каждая аннотация должна иметь несколько аннотаций, что невозможно:

Каждая аннотация может содержать до десяти токенов (слов). Они не могут перекрываться; start_offset аннотации не может быть между start_offset и end_offset аннотации в том же документе. [ docs ]

Однако вы, вероятно, могли бы реализовать это самостоятельно, основываясь на вашем понимании вложенного NER. Обучите общую модель для извлечения первичных сущностей (более крупные содержащие сущности). Затем обучите вторичную модель для извлечения вторичных сущностей (сущностей внутри первичной сущности). Запустите вторичную модель только на выходах первичной модели. Потенциально вы должны также реализовать некоторые условия, такие как количество токенов.

Распознавание вложенных именованных объектов с помощью Google Cloud NLP

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Распознавание вложенных именованных объектов с помощью Google Cloud NLP

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы