Переоборудованная модель работает лучше в тестовом наборе - PullRequest
0 голосов
/ 09 ноября 2018

Я задал этот вопрос здесь , но, похоже, люди там не активны.

Есть две модели для одной и той же задачи:

model_1: 98% точности на тренировочном наборе, 54% точности на испытательном наборе. model_2: Точность 48% на тренировочном наборе, точность 47% на тестовом наборе.

Из приведенной выше статистики можно сказать, что model_1 подходит для тренировочного набора. Q1: Можно ли сказать, что model_2 недостаточно подходит? Q2: Почему model_1 - плохой выбор, если он работает лучше, чем model_2 на тестовом наборе?

Ответы [ 3 ]

0 голосов
/ 09 ноября 2018

Q1 Да, model_2 underfits.

Q2 Потому что model_2 вместо обобщения просто запоминают ответы. Таким образом, производительность тестового набора будет ухудшаться, чем больше будет разница между поездом и тестовым набором.

0 голосов
/ 08 февраля 2019

Цитирование Книга Яна Гудфеллоу, глава 5.2 :

Мы должны помнить, что более простые функции с большей вероятностью Обобщая (чтобы иметь небольшой разрыв между тренировкой и ошибкой теста), мы все еще нужно выбрать достаточно сложную гипотезу для достижения низкого ошибка тренировки.

0 голосов
/ 09 ноября 2018

Прежде всего несколько предварительных пунктов:

было бы полезно узнать, является ли задача двоичной. В этом случае вы получаете производительность, очень близкую к случайному выбору. Так что в основном ваша модель не учится на тренировочном наборе.

Еще одной полезной информацией будет знать, является ли обучающий набор для двух моделей одинаковым (один и тот же тест на расщепление / обучение). Потому что разница 7% между двумя моделями может быть просто случайным шумом из-за разделения выборки.

Наконец, чтобы утверждать, что модель_2 лучше модели_1, вам необходим более глубокий анализ. весьма вероятно, что нет никакой статистической значимости в разнице между этими двумя моделями.

Тот факт, что модель перегружена, говорит о том, что она плохо обобщает набор тестов. Выбрав лучший дизайн, вы сможете улучшить производительность и сделать систему более устойчивой к невидимым образцам. Причина, по которой не следует использовать систему переоснащения, заключается в том, что точность 54% достигается на этом конкретном наборе испытаний / проверок и может значительно отличаться от новых невидимых значений из-за отсутствия обобщения и надежности модели.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...