Увеличение данных в перекрестной проверке - PullRequest
0 голосов
/ 13 марта 2019

Правильно ли я понимаю, что расширение данных в задаче классификации объектов должно выполняться только на обучающем наборе?

Если да, то как выполнить 10-кратную перекрестную проверку с расширенными данными?Создаются ли дополненные данные каждый раз, когда меняется тестовая складка (т. Е. 10 раз)?

Бонусный вопрос: можете ли вы направить меня к ресурсу, который показывает, как это сделать в Tensorflow?

Ответы [ 2 ]

1 голос
/ 14 марта 2019

Да, ваше понимание верно. Данные валидации предназначены для того, чтобы дать вам представление о том, как ваша модель ведет себя на реальных невиданных примерах, например, на тестовых данных.Таким образом, вы должны сохранить его реальным и не испортить его с помощью дополнения.

Теперь к 10-кратной перекрестной проверке: вступают в силу инженерные соображения. Это вычислительно дорого делать увеличение?Возможно, вы можете предварительно вычислить дополненные данные и выбрать оригинал + дополненный для обучения и только оригинал для проверки.Вы хотите, чтобы объемы дополненных данных были бесполезными и / или было ли это легко?Делайте это на лету, возможно, как часть выборки из набора данных.

Я не могу помочь вам с вопросом о бонусе TF, но есть хороший пример объединения вещей в PyTorch,

0 голосов
/ 14 марта 2019

Увеличение данных обычно выполняется, чтобы помочь нашей модели лучше обобщать данные тестирования / реального мира.Для многих практических применений данные делятся на обучающие / действительные / проверочные.Данные могут быть дополнены в поезде и действительном наборе данных.Нет смысла делать увеличение данных в тестовом наборе.

Для перекрестной проверки проверьте функцию kfold из библиотеки sklearn, которая может работать с массивом numpy.вы можете использовать их возвращаемое значение непосредственно в model.fit () tenorsflow

...