Я пытаюсь сделать классификатор LSTM для Именованной сущности.На данный момент я предпринял следующие шаги:
Первый:
Я обучил NER Стэнфорда данным, которые соответствуют моему набору данных.
Второй:
Я отфильтровал каждое предложение из набора данных по стоп-словам, знакам препинания и цифрам (они мне не нужны) и использовал тег POS и NER в каждом предложении.Затем каждое предложение было разделено на слова и вместе с отвечающими POS-тегами и именованными тегами сущностей использовалось при формировании кадра данных.
Третий:
Обучил простую модель LSTM, где метка является Именованнойюридическое лицо.Набор данных состоит в основном из тегов именованных сущностей «O».
Итак, возникает вопрос?Должен ли я уменьшить дубликаты из кадра данных и уменьшить количество «O» (других) тегов, чтобы LSTM не слепо классифицировал все как «O»?Частота именованных объектов, которые не обозначены буквой «О» в каждом предложении, значительно ниже, чем метки «О».Любая идея о том, какие другие функции я должен использовать вход в LSTM?
Я довольно новый в НЛП, поэтому любая помощь по улучшению моего метода приветствуется.