Искусственно увеличить размер набора данных за счет дублирования? - PullRequest
0 голосов
/ 30 мая 2020

Я работаю над проектом машинного обучения, в котором я использую нейронную сеть для решения проблемы двоичной классификации, однако мой набор данных (в формате .csv) относительно невелик. У него всего около 60 случаев «да / нет», и хотя он мог тренироваться, точность не была очень хорошей. Моим решением было просто дублировать набор данных и при каждом дублировании вносить крошечные изменения в числа, то есть добавлять + -1 или умножать на 0,999 к каждому числу. Сделав это, я увеличил размер набора данных примерно до 1100 новых наблюдений, и он достиг гораздо более высокого уровня точности. Мне было интересно, действительно ли это метод, используемый исследователями машинного обучения, и если да, то есть ли у него настоящее официальное / академическое c имя?

Спасибо!

1 Ответ

0 голосов
/ 30 мая 2020

Да, процесс, о котором вы говорите, называется увеличением данных.

Однако я настоятельно рекомендую вам не использовать нейронные сети в наборах данных, содержащих всего от сотни до тысячи строк. В идеале нейронные сети используются для обучения моделей на больших наборах данных.

...