Я встретил профессора, который сказал мне, что, вообще говоря, точность проверки всегда выше, чем точность тестирования. Он утверждал, что набор данных тестирования используется только для тестирования окончательной модели. Несмотря на то, что набор данных проверки используется только для настройки гиперпараметров, и в модели показываются только обучающие данные, разработчик модели может попытаться тщательно выбрать лучшую модель в соответствии с точностью проверки для многочисленных периодов обучения.
Однако, поскольку данные тестирования, как правило, ограничены количеством испытаний. Например, в некоторых соревнованиях достаточно одной оценки для представления результатов тестирования в день. Таким образом, мы не могли выбрать самую лучшую модель, которая могла бы достичь максимальной точности как в наборе данных для валидации, так и для тестирования. Поэтому наша лучшая модель, которая достигла лучших результатов в данных проверки, обычно не является лучшей в данных тестирования. Тем не менее, этот оратор все еще верит в это, когда GT тестируемого набора данных выпускается в некоторых наборах данных.
Я знаю, что распределение данных в проверочном наборе данных и тестируемом наборе данных, как правило, должно быть схожим. Однако это не гарантируется. Например, в наборе данных обнаружения объектов общего назначения «сложность» между одним и тем же классом объектов в наборе данных проверки и наборе данных тестирования может быть разной. Чтобы быть более точным, давайте предположим, что целью обнаружения является человек, и мы все знаем, что маленького, окклюдированного или усеченного человека труднее обнаружить. Однако практически сложно контролировать распределение в соответствии с размером, окклюзией и уровнем усечения в наборе данных для валидации и тестирования, соответственно. Следовательно, возможно, что точность тестирования выше, чем точность валидации, когда доступен GT обоих наборов данных.