Question

Я работаю над проектом машинного обучения, в котором я использую нейронную сеть для решения проблемы двоичной классификации, однако мой набор данных (в формате .csv) относительно невелик. У него всего около 60 случаев «да / нет», и хотя он мог тренироваться, точность не была очень хорошей. Моим решением было просто дублировать набор данных и при каждом дублировании вносить крошечные изменения в числа, то есть добавлять + -1 или умножать на 0,999 к каждому числу. Сделав это, я увеличил размер набора данных примерно до 1100 новых наблюдений, и он достиг гораздо более высокого уровня точности. Мне было интересно, действительно ли это метод, используемый исследователями машинного обучения, и если да, то есть ли у него настоящее официальное / академическое c имя?

Спасибо!

Vijay Bhargav · Answer 1 · 30 мая 2020

Да, процесс, о котором вы говорите, называется увеличением данных.

Однако я настоятельно рекомендую вам не использовать нейронные сети в наборах данных, содержащих всего от сотни до тысячи строк. В идеале нейронные сети используются для обучения моделей на больших наборах данных.

Искусственно увеличить размер набора данных за счет дублирования?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Искусственно увеличить размер набора данных за счет дублирования?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы