Я пытаюсь обучить свою собственную модель классификатора адресов с использованием Stanford CRF-NER
, но производительность очень низкая.Я смущен форматом обучающих данных, с которыми я тренировался.Данные об обучении обычно представляют собой список районов, городов, провинций и их соответствующих ярлыков.Но модель не привязывает соответствующие адресные теги к своим токенам.
Формат данных обучения следующий:
- ПРОВИНЦИЯ БАРАТА
- ПРОВИНЦИЯ МАЛУКУ
- МАЛУКУНСКАЯ ПРОВИНЦИЯ
- КАБУПАТЕНСКАЯ РЕГЕНЦИЯ
- ОДНОВРЕМЕННАЯ РЕГЕНЦИЯ
- КАБУПАТЕНСКАЯ РЕГЕНЦИЯ
- АСЕГСКАЯ РЕГЕНЦИЯ
Этопросто образец обучающих данных в формате csv. Имеется 3 метки PROVINCE, REGENCY и DISTRICT
Вот вывод меток:
Вы можете все токены были помечены как РАЙОН, хотя у меня есть РЕГЕНЦИЯ, РАЙОН И ПРОВИНЦИЯ в качестве помеченных данных.
Я хотел бы знать, если мой формат обученияданные верны, они работают только с контекстными данными на уровне предложений. Поскольку я видел, как Стэнфорд NER
хорошо работает на уровне предложений.