Недостатки поезда-теста сплит - PullRequest
0 голосов
/ 27 февраля 2019

"Разделение поезда / теста имеет свои опасности - что, если разделение, которое мы проводим, не случайно? Что, если в одном подмножестве наших данных есть только люди из определенного штата, сотрудники с определенным уровнем дохода, но не с другими уровнями доходатолько женщины или только люди в определенном возрасте? (представьте файл, заказанный одним из них). Это приведет к переоснащению, даже если мы пытаемся этого избежать! Именно здесь начинается перекрестная проверка ».Выше приведено большинство упомянутых блогов, о которых я не понимаю.Я думаю, что недостатки не в переоснащении, а в недостаточной комплектации.Когда мы разделяем данные, предположим, что состояния A и B становятся набором данных для обучения, и пытаемся предсказать состояние C, которое полностью отличается от данных для обучения, которые приведут к недостаточному соответствию.Может кто-нибудь объяснить мне, почему в большинстве блогов говорится, что «тест-сплит» приводит к переоснащению.

Ответы [ 2 ]

0 голосов
/ 27 февраля 2019

На самом деле разделение поезда / теста имеет некоторую случайность.Смотрите ниже с помощью sci-kit learn train_test_split

from sklearn.model_selection import train_test_split

train_set, test_set = train_test_split(data, test_size=0.2, random_state=42)

Здесь, чтобы иметь некоторую начальную интуицию, вы можете изменить значение random_state на какое-то случайное целое число и несколько раз обучить модель, чтобы увидеть, сможете ли выполучить сопоставимую точность теста в каждом прогоне.Если набор данных небольшой (порядка 100 с), точность теста может значительно отличаться.Но когда у вас есть больший набор данных (порядка 10000 с), точность теста становится более или менее похожей, поскольку набор поездов будет включать в себя хотя бы несколько примеров из всех выборок.

Конечно, перекрестная проверка выполняется для минимизацииэффект переоснащения и сделать результаты более обобщенными.Но со слишком большими наборами данных было бы очень дорого проводить перекрестную проверку.

0 голосов
/ 27 февраля 2019

Было бы правильнее говорить о смещении выбора , которое описывает ваш вопрос.

Смещение выбора не может быть связано не с переобучением, а с подбором смещенного набора, поэтому модельбудет не в состоянии правильно обобщить / предсказать.

Другими словами, применимо ли «подгонка» или «переоснащение» к смещенному набору поездов, что все еще неправильно.

Семантическая нагрузка напрефикс "over" - это просто так.Это подразумевает смещение.

Представьте, что у вас нет смещения выбора.В этом случае, когда вы надеваете даже здоровый комплект, по определению переоснащения вы все равно будете делать модель смещенной в сторону вашего комплекта поезда.

Здесь ваш начальный тренировочный комплект уже смещен.Поэтому любая подгонка, даже «правильная подгонка», будет смещена, как это происходит при переоснащении.

...