Предположим, я строю сеть для локализации объекта. Мои тренировочные данные состоят из изображений, снятых в 5 разных местах, и небольшого набора данных (в каждом месте около 2 тысяч изображений). Должен ли я добавить все изображения, перемешать их, а затем распределить их по обучению (60%), dev (20%), тестированию (20%) или мне нужно взять данные из 3 мест в качестве обучения, 1 места в качестве теста и 1 места в качестве девиация