Классификация тега NER с помощью LSTM - PullRequest
0 голосов
/ 27 мая 2019

Я пытаюсь сделать классификатор LSTM для Именованной сущности.На данный момент я предпринял следующие шаги:

Первый:

Я обучил NER Стэнфорда данным, которые соответствуют моему набору данных.

Второй:

Я отфильтровал каждое предложение из набора данных по стоп-словам, знакам препинания и цифрам (они мне не нужны) и использовал тег POS и NER в каждом предложении.Затем каждое предложение было разделено на слова и вместе с отвечающими POS-тегами и именованными тегами сущностей использовалось при формировании кадра данных.

Третий:

Обучил простую модель LSTM, где метка является Именованнойюридическое лицо.Набор данных состоит в основном из тегов именованных сущностей «O».

Итак, возникает вопрос?Должен ли я уменьшить дубликаты из кадра данных и уменьшить количество «O» (других) тегов, чтобы LSTM не слепо классифицировал все как «O»?Частота именованных объектов, которые не обозначены буквой «О» в каждом предложении, значительно ниже, чем метки «О».Любая идея о том, какие другие функции я должен использовать вход в LSTM?

Я довольно новый в НЛП, поэтому любая помощь по улучшению моего метода приветствуется.

...