Прежде всего, вам нужно убедиться, что при разделении данных относительный размер каждого класса в новых наборах данных равен. Он может быть несбалансированным, если это распределение ваших исходных данных, но он должен иметь одинаковый дисбаланс во всех наборах данных после разделения.
Теперь по поводу раскола. Если вам нужны наборы для обучения, проверки и тестирования, все они должны быть независимыми друг от друга (образцы без общего доступа). Это важно, если вы не хотите обманывать себя результатами, которые вы получаете.
В общем, в машинном обучении мы начинаем с тренировочного набора и тестового набора. Чтобы выбрать лучшую модель архитектуры / гиперпараметры, мы далее делим обучающий набор, чтобы получить набор проверки (тестовый набор не должен затрагиваться).
Определив лучшую архитектуру / гиперпараметры для нашей модели, мы объединяем набор обучения и проверки и обучаем модель наилучшего случая с нуля с помощью комбинированного полного набора обучения. Только теперь мы можем проверить результаты на тестовом наборе.