Должен ли я использовать все доступные данные для обучения моей модели глубокого обучения? Каковы плюсы и минусы использования только подмножества? - PullRequest
0 голосов
/ 29 октября 2019

У меня очень сложная модель нейронной сети на основе LSTM, которую я тренирую на парах Quora Duplicate Question. В исходном наборе данных содержится около 400 000 пар предложений. Для обучения всего набора данных (или 80%) потребуется много вычислительной мощности и времени вычислений. Было бы неразумно, если бы я выбрал случайное подмножество набора данных (скажем, только 8000 пар) для обучения и 2000 для тестирования? Повлияет ли это на производительность? Всегда ли «больше данных, лучше модель» правда?

1 Ответ

1 голос
/ 30 октября 2019

Как правило, глубокие нейронные сети обычно получают больше данных.

Если у вас есть хорошо описанная модель и правильно спроектированы входные данные, вы потеряете, если выберете меньшее подмножество своего набора данных.

Однако вы всегда можете оценить это с помощью метрик. Проверьте, как уменьшается ваша потеря при каждом размере выборки, начиная с 8000 пар.

При больших проблемах всегда следует помнить, что время вычислений обычно также велико.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...