тестировать и обучать передовой практике - PullRequest
0 голосов
/ 13 февраля 2020

Когда одна особенность набора данных представляет собой сводную статистику c всего пула данных, целесообразно ли включать данные о поездах в тестовые данные, чтобы рассчитать функцию для проверки?

Например, допустим, у меня есть 1000 точек данных, разделенных на 800 записей обучения и 200 записей для проверки. Я создаю функцию с 800 записями для обучения, скажем, квартиля ранга (или может быть чем угодно), в котором 0-3 квартиля, в который попадает какая-то другая особенность. Таким образом, в обучающем наборе будет 200 точек данных в каждом квартиле.

После того, как вы обучите модель и вам потребуется снова рассчитать функцию для набора проверки, а) используете ли вы уже установленные барьеры квартилей, ie 200 записей проверки могут отличаться от 50-50- 50-50 квартиль, или б) Вы пересчитываете квартили, используя все 1000 записей, чтобы появилась новая особенность рантиля квартилей, каждая из 250 записей?

Большое спасибо

1 Ответ

0 голосов
/ 13 февраля 2020

Идеальной практикой будет вычисление квартилей в наборе обучающих данных и использование этих барьеров в вашем наборе данных для удержания / проверки. Чтобы убедиться, что вы правильно генерируете диагностику модели для оценки ее прогностической эффективности, вы не хотите, чтобы распределение набора данных тестирования влияло на ваше обучение модели. Это связано с тем, что эти данные будут недоступны в реальной жизни, когда вы примените модель к невидимым данным.

Я также подумал, что вы найдете эту статью чрезвычайно полезной, если подумать о разделении на поездах - https://towardsdatascience.com/3-things-you-need-to-know-before-you-train-test-split-869dfabb7e50

...