Могу ли я предсказать и оценить модель со всем набором данных? - PullRequest
0 голосов
/ 01 апреля 2019

Я разбил набор данных на поезд и проверил рацион 80-20 соответственно.Я предсказал и оценил с помощью тестового набора данных.И мой вопрос заключается в том, можем ли мы оценить и предсказать модель для всего набора данных, прежде чем я перетасую весь набор данных.Можем ли мы сделать это?Если нет, то почему бы нам не сделать это?что такого не так?

Ответы [ 3 ]

0 голосов
/ 01 апреля 2019

Вы можете сделать это, однако это приведет к переоснащению модели. Вы можете попробовать k метод перекрестной проверки вместо.

0 голосов
/ 01 апреля 2019

Если вы используете весь набор данных для обучения, модель будет соответствовать всем отклонениям в данных (переоснащение). В результате производительность вашей модели на похожих данных будет высокой. Однако модель будет демонстрировать низкую производительность для невидимых данных с другим распределением по сравнению с вашим набором обучающих данных. Один из способов предотвратить это: а) разделить ваши данные на наборы данных обучения, проверки и тестирования (см. Примечание ниже), b) применить k-кратную перекрестную проверку на разделениях обучения и проверки, c) проверить производительность вашего модели из шага b третьего разделения (тестовый набор данных). Примечание: нет единого мнения по поводу имен разделений. Некоторые источники называют их обучением-проверкой-проверкой, в то время как другие используют обучение-проверкой-проверкой.

0 голосов
/ 01 апреля 2019

Отслеживание данных - это быстрый ответ на ваши вопросы.Другими словами, ваша модель, по-видимому, превосходит ваши тестовые данные, если ее сначала обучить на 100% данных.Модель станет переобученной моделью, которая в основном будет предсказывать видимые данные с более высокой точностью, однако не сможет сделать это с какими-либо невидимыми тестовыми данными.

...