Традиционный совет - это ~ 70-75% тренировок и данные остальных тестов. Более свежие статьи действительно предлагают другой раскол. В эти дни я много читаю 95 / 2.5 / 2.5 (train / test / dev для настройки гиперпараметра).
Полагаю, ваше оптимальное разделение зависит от количества доступных данных и характеристик смещения / дисперсии. Плохая работа с тренировочными данными может быть вызвана недостаточной подготовкой и может потребовать больше тренировочных данных. Если ваша модель хорошо вписывается или даже переоснащается, вы сможете выделить некоторые данные обучения для проверки данных.
Если вы застряли в середине, вы можете также рассмотреть перекрестную проверку как вычислительно дорогой, но дружественный к данным вариант.