Я выполняю задачу NER с Keras. Моя модель представляет собой комбинацию кодирования слов путем встраивания символов, за которым следуют несколько сверточных слоев. Цель состоит в том, чтобы обнаружить шаблоны в отдельных словах, поскольку мы имеем дело с полуструктурированным вводом. Наконец, модель использует слой TimeDistributed Dense с «softmax» в качестве активации. К сожалению, модель классифицирует каждое слово как «неизвестный ярлык», поскольку оно, безусловно, является самым современным. Я добавил class_weights для смягчения этого несбалансированного ярлыка, но без какого-либо эффекта. Модель занимает 30 слов в строке и максимальную длину слова 100 символов. Потеря - это категорическая_кросентропия, а точность - категориальная_точность. Модель застревает на 75%, что является для большинства линий в обучающем наборе пропорцией «неизвестных ярлыков».