классификатор, использующий выборку популяции: масштабирование популяции, а затем выборка / масштабирование выборки / масштабирование разделения X_TRAIN выборки? - PullRequest
1 голос
/ 15 мая 2019

Я строю классификатор логистической регрессии.

Я начинаю формировать набор из 500.000 записей и хочу использовать только их выборку.

что вы рекомендуете:

1) масштабирование населения и затем выборка 2) масштабирование образца 3) масштабировать только разделение X_TRAIN образца?

а почему?

мои соображения таковы:

1) это может иметь смысл, если выборка является репрезентативной для населения (я должен проверить это?)

2) это не убедительно, потому что я бы выбрал несколько выборок, чтобы увидеть уровень обобщения классификатора, и иметь каждый раз немного другой скейлер не звучит хорошо. плюс это сместит X_train, X_test split

3) Это не приведет к смещению X_train, X_test split, но имеет те же сомнения относительно точки2)

Что бы вы порекомендовали и почему?

1 Ответ

1 голос
/ 16 мая 2019

Замечательный вопрос.У меня были похожие вопросы, когда я начинал несколько лет назад.Позвольте мне попытаться дать на это два моих цента.

Я предлагаю перейти к созданию скейлера для масштабирования X_train, сохранить его и посмотреть, будет ли он использован для преобразования X_test.Согласно теореме центральности, если вы сделали случайную выборку, у вас должно быть среднее значение и дисперсия, аналогичные атрибутам совокупности.В большинстве случаев скалер работает на основе этих двух параметров.Если он представляет параметры популяции, пока данные теста поступают из одной популяции, скалер должен работать.Если это не работает, вам нужно больше проб для обучения или другая попытка проб, чтобы получить X_train, представляющий население.

Делая это, вы уверены, что модель будет работать и с новыми образцами, пока она генерируется тем же процессом.В конце концов, модель не создана для тестирования, она предназначена для того, чтобы быть в производстве и выполнять какую-то полезную работу.

Моя рекомендация состоит в том, чтобы перейти к 3) масштабированию X_train и использовать инструмент масштабирования для преобразования X_test.

...