Мне дан набор данных для извлечения информации. Количество работает в несколько миллионов. Скорее я делаю аннотации вручную, обучаю и проверяю результат. Есть ли способ / методология для проверки правильности данных обучения, таких как длина предложения и т. Д.,
Средняя длина предложения составляет 7 слов в моем корпусе, этого достаточно.
Или
Если предположить, что корпус - это всегда правильные данные ..
Спасибо