Трудно догадаться, почему старшие ученые-данные дали вам такой совет без контекста, но я могу вспомнить хотя бы одну причину, которую они могли иметь в виду.
Если вы находитесь в первом сценарии, где обучающий набор не содержит полного набора меток, то часто бывает полезно это знать, поэтому сообщение об ошибке является полезной информацией.
Случайная выборка часто может пропустить редкие метки, поэтому взятие полностью случайной выборки всех ваших данных не всегда является лучшим способом создания обучающего набора. Если Франция не появится в вашем тренировочном наборе, то ваш алгоритм не будет учиться на нем, поэтому вы можете использовать метод рандомизации, который гарантирует, что ваш тренировочный набор будет репрезентативным для случаев меньшинства. С другой стороны, использование другого метода рандомизации может привести к новым отклонениям.
Как только вы получите эту информацию, она будет зависеть от ваших данных и решаемой проблемы относительно того, каким будет наилучший подход к ее решению, но в некоторых случаях важно, чтобы присутствовали все метки. Хорошим примером будет выявление наличия очень редкой болезни. Если в ваших данных о тренировках нет ярлыка, указывающего на наличие заболевания, лучше повторить выборку.