Question

У меня очень сложная модель нейронной сети на основе LSTM, которую я тренирую на парах Quora Duplicate Question. В исходном наборе данных содержится около 400 000 пар предложений. Для обучения всего набора данных (или 80%) потребуется много вычислительной мощности и времени вычислений. Было бы неразумно, если бы я выбрал случайное подмножество набора данных (скажем, только 8000 пар) для обучения и 2000 для тестирования? Повлияет ли это на производительность? Всегда ли «больше данных, лучше модель» правда?

Tiago Duque · Answer 1 · 30 октября 2019

Как правило, глубокие нейронные сети обычно получают больше данных.

Если у вас есть хорошо описанная модель и правильно спроектированы входные данные, вы потеряете, если выберете меньшее подмножество своего набора данных.

Однако вы всегда можете оценить это с помощью метрик. Проверьте, как уменьшается ваша потеря при каждом размере выборки, начиная с 8000 пар.

При больших проблемах всегда следует помнить, что время вычислений обычно также велико.

Должен ли я использовать все доступные данные для обучения моей модели глубокого обучения? Каковы плюсы и минусы использования только подмножества?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Должен ли я использовать все доступные данные для обучения моей модели глубокого обучения? Каковы плюсы и минусы использования только подмножества?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы