Ну, я нашел ответ, попробовав его.Я загрузил корпус из Knowledge Studio и проанализировал структуру JSON каждого файла (внутри папки "./gt").
В конце каждого файла есть записи JSON для каждой ранее аннотированной сущности,поэтому я использовал их в качестве примера.Для каждой записи есть идентификатор, который имеет одно значение для номера предложения, а другое - для номера упоминания (оба последовательных, начиная с нуля).Упомянутое число перезапускается для каждого предложения, причем каждое предложение разделяется (по крайней мере, как я мог заметить), на «\ n», а также на «.» (Обратите внимание на пробел после «.»).Кроме того, каждая запись имеет значение для номера символа в начале и в конце упоминания.При подсчете символов система не учитывает символ "\".Вот пример того, как это выглядит.
{
"id" : "s3-m0", //id for the first mention in the fourth sentence
"properties" : {
"SIRE_MENTION_TYPE" : "NONE",
"SIRE_MENTION_CLASS" : "SPC",
"SIRE_ENTITY_SUBTYPE" : "NONE",
"SIRE_MENTION_ROLE" : "TEST_ENTITY" // mention name
},
"type" : "TEST_ENTITY", // mention name again
"begin" : 11, // beginning of the mention
"end" : 19, // end of the mention
"inCoref" : false
}
Если вы помечаете новое упоминание (ранее не входившее в систему типов), вам придется сначала создать его вручную.После добавления этой записи в каждый JSON загрузите измененный корпус в Knowledge Studio и создайте набор аннотаций с загруженными документами.Затем создайте новую задачу для аннотирования этого нового набора, и вы должны увидеть, что документ уже снабжен записями, добавленными вами вручную.Итак, модель готова к обучению на этих новых примерах после подачи документов и принятия задания.Я думаю, что это должно быть похоже на ручное аннотирование отношений.
Надеюсь, это поможет кому-то еще!