Я обучил пользовательский распознаватель сущностей, используя AWS comprehend, для проблемы извлечения сущностей. Обученный распознаватель использует разделение данных поезда и теста по умолчанию, которое здесь разделяет данные теста больше, чем данные поезда. Это влияет на показатели распознавателя. Также эти значения (количество обучающих и тестовых документов) превышают общий входной файл train.csv, добавленный в корзину s3 для обучения.
Общее количество входных данных в файле CSV: 1010
Распознаватель использованных железнодорожных документов: 2480
Распознаватель использовал тестовый документ: 3270