Как мне построить модель распознавания сущностей из этих текстовых файлов? - PullRequest
0 голосов
/ 01 октября 2019

это может быть немного наивный вопрос, но потерпите меня.

У меня есть такой набор данных.

Pretty    O
bad   O
storm O
here  O
last  O
evening   O
. O

From  O
Green O
Newsfeed  O
: O
AHFA  B-group
extends   O
deadline  O
for   O
Sage  O
Award O
to    O
Nov   O
. O

где O является тегом для не сущности, аналогично B-group является тегом для группы. Точно так же есть некоторые другие сущности.

, и я пытаюсь построить модель распознавания имен . У всех моделей, с которыми я сталкивался, есть предложения, и затем они продолжают строить модель. Как будто они напрямую получают теги PoS для всех слов из API, обрабатывая их.

но если я хочу тренировать модель здесь. Может кто-нибудь предложить мне подход или направить меня к ресурсу. Заранее спасибо.

1 Ответ

1 голос
/ 01 октября 2019

Вы можете обучить BERT для этого типа данных или любой аналогичной модели. Маркировка POS не является обязательной для всех типов моделей, она просто добавляет больше контекста для лучшего прогнозирования модели. GERT-репозиторий для обучения BERT: Link1 В основном модели для обучения NER используют Набор данных CoNLL-2003 , где POS-теги не нужны. Существуют и другие архитектуры для обучения NER, такие как XLNET. Вы также можете воспользоваться новейшей библиотекой Hugging face для простой реализации различных архитектур.

...