Если я вас правильно понял, вас интересует, влияет ли случайность, вызванная увеличением данных, на результат?
Случайность увеличения не влияет на результат (по крайней мере, до степени, которая в любом случае имеет значение), если вы тренируетесь достаточно долго. Другие варианты у вас есть (как я думаю об этом):
- Дополните ваши данные детерминистическим применением того же преобразования к вашим изображениям до вставки их в вашу модель. Эти преобразования могут быть (а) либо случайными, например, поверните ваши изображения на произвольную степень между некоторыми пределами или (b) заранее определенными, например, поверните все свои изображения на 1, 3 и 5 градусов.
- Не увеличивайте ваши данные вообще. Используйте ваши начальные данные для обучения вашей модели.
Эффект от этих выборов:
- Количество примененных вами преобразований ограничено, и даже если выбран вариант 1a, он будет предварительно задан. Если вы хотите значительно увеличить это, возникают другие проблемы, например, где вы собираетесь хранить все эти данные, как вы будете обрабатывать их во время обучения и т. Д. Таким образом, преимущество «на лету» в том, что хранилище ваших данных не меняется вы также не можете справиться со своими данными Недостаток, конечно, заключается в более медленной процедуре (которая в зависимости от преобразования может иметь большое значение).
- Этот выбор действителен означает, что у вас есть много данных. И много значить (в зависимости от проблемы, конечно) иногда много не достаточно. Поскольку вы (вероятно) используете разные данные для тестирования, между данными об обучении и тестировании возникают различия во многих аспектах. Например, для обнаружения человеком (произвольный выбор) распространены различия в позах, цветах, условиях освещения, четкости изображения, размере изображения, соотношении сторон. Как ты с этим справляешься? Вы либо собираете огромную коллекцию данных, либо (возможно) используете расширение данных, верно?
Подводя итог, это справедливо, потому что в долгосрочной перспективе это не имеет большого значения. Рассмотрим вариант ранней остановки для вашей модели, например. Справедливо ли сравнивать модели, которые остановили свое обучение не в лучшей итерации? Ну, это не совсем справедливо, но это не имеет значения.