Случайная перетасовка данных является стандартной процедурой во всех конвейерах машинного обучения, и классификация изображений не является исключением; его цель состоит в том, чтобы устранить возможные отклонения во время подготовки данных - например, сначала поместить все изображения кошек, а затем собак в набор данных классификации кошка / собака.
Возьмем, к примеру, известный набор данных iris:
from sklearn.datasets import load_iris
X, y = load_iris(return_X_y=True)
y
# result:
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])
Как вы можете ясно увидеть, набор данных был подготовлен таким образом, что все первые 50 образцов имеют маркировку 0
следующие 50 ярлыков 1
и последние 50 ярлыков 2
. Попробуйте выполнить 5-кратную перекрестную проверку в таком наборе данных без перемешивания, и вы обнаружите, что большинство ваших сгибов содержат только одну метку; попробуйте 3-кратное резюме, и все ваши сгибы будут включать только одну метку. Плохо ... Кстати, это не просто теоретическая возможность, это действительно произошло .
Даже если такого смещения нет, тасование никогда не повредит, поэтому мы делаем это всегда просто быть в безопасности (вы никогда не знаете ...).
Исходя из моего предыдущего опыта, это привело к тому, что потери при проверке были ниже, чем потери при обучении, а точность проверки больше, чем точность при обучении. Проверьте эту ссылку.
Как отмечается в ответе, весьма маловероятно, что это произошло из-за тасования. Перетасовка данных не является чем-то сложным - по сути, это просто эквивалент перетасовки колоды карт; могло случиться, что однажды вы настаивали на «лучшей» перетасовке, и впоследствии у вас была рука с простым гриппом sh, но, очевидно, это было не из-за «лучшей» перетасовки карт.