Каким должен быть формат обучающих данных для классификатора NER CRF Stanford? - PullRequest
0 голосов
/ 06 мая 2019

Я пытаюсь обучить свою собственную модель классификатора адресов с использованием Stanford CRF-NER, но производительность очень низкая.Я смущен форматом обучающих данных, с которыми я тренировался.Данные об обучении обычно представляют собой список районов, городов, провинций и их соответствующих ярлыков.Но модель не привязывает соответствующие адресные теги к своим токенам.

Формат данных обучения следующий:

  • ПРОВИНЦИЯ БАРАТА
  • ПРОВИНЦИЯ МАЛУКУ
  • МАЛУКУНСКАЯ ПРОВИНЦИЯ
  • КАБУПАТЕНСКАЯ РЕГЕНЦИЯ
  • ОДНОВРЕМЕННАЯ РЕГЕНЦИЯ
  • КАБУПАТЕНСКАЯ РЕГЕНЦИЯ
  • АСЕГСКАЯ РЕГЕНЦИЯ

Этопросто образец обучающих данных в формате csv. Имеется 3 метки PROVINCE, REGENCY и DISTRICT

Вот вывод меток:

OUTPUT of the Stanford NER Tgger

Вы можете все токены были помечены как РАЙОН, хотя у меня есть РЕГЕНЦИЯ, РАЙОН И ПРОВИНЦИЯ в качестве помеченных данных.

Я хотел бы знать, если мой формат обученияданные верны, они работают только с контекстными данными на уровне предложений. Поскольку я видел, как Стэнфорд NER хорошо работает на уровне предложений.

...