По сути, тексты, которые вы форматируете для учебного процесса, должны иметь один жетон в каждой строке, за которым следует вкладка, за которой следует идентификатор.Идентификатор может быть чем-то вроде «LOC» для местоположения, «COR» для корпорации или «0» для токенов не-сущности.Например,
I 0
left 0
my 0
heart 0
in 0
Kansas LOC
City LOC
. 0
Когда наша команда подготовила серию классификаторов, мы добавили в каждый учебный файл, отформатированный таким образом, примерно 180 000 токенов, и мы увидели чистое улучшение точности, но чистое уменьшение количества отзывов.(Следует отметить, что увеличение точности не было статистически значимым.) В случае, если это может быть полезно для других, я описал процесс, который мы использовали для обучения классификатора, а также значения p, r и f1 для обученного и стандартного значений.классификаторы здесь .