Единственная цель отложить тестовый набор - оценить точность прогноза. Тем не менее, это нечто большее, чем просто проверка числа и размышление: «Вот как работает моя модель»!
Знание того, как ваша модель работает в данный момент, дает вам важный ориентир для потенциальных улучшений модели. Иначе как вы узнаете, увеличивает ли добавление функции производительность модели? Кроме того, как вы узнаете, лучше ли ваша модель, чем просто случайное предположение? Иногда чрезвычайно простые модели превосходят более сложные.
Другая вещь - это удаление характеристик или наблюдений. Это немного зависит от типа используемых вами моделей, но некоторые модели (например, k-Nearest-Neighbours) работают значительно лучше, если вы удалите неважные функции из данных. Аналогично, предположим, что вы добавляете больше обучающих данных, и внезапно производительность теста вашей модели значительно падает. Возможно, что-то не так с новыми наблюдениями? Вы должны знать об этих вещах.
Единственный аргумент, который я могу придумать, чтобы не использовать набор тестов, - это то, что в противном случае у вас будет слишком мало обучающих данных для оптимальной работы модели.