Когда одна особенность набора данных представляет собой сводную статистику c всего пула данных, целесообразно ли включать данные о поездах в тестовые данные, чтобы рассчитать функцию для проверки?
Например, допустим, у меня есть 1000 точек данных, разделенных на 800 записей обучения и 200 записей для проверки. Я создаю функцию с 800 записями для обучения, скажем, квартиля ранга (или может быть чем угодно), в котором 0-3 квартиля, в который попадает какая-то другая особенность. Таким образом, в обучающем наборе будет 200 точек данных в каждом квартиле.
После того, как вы обучите модель и вам потребуется снова рассчитать функцию для набора проверки, а) используете ли вы уже установленные барьеры квартилей, ie 200 записей проверки могут отличаться от 50-50- 50-50 квартиль, или б) Вы пересчитываете квартили, используя все 1000 записей, чтобы появилась новая особенность рантиля квартилей, каждая из 250 записей?
Большое спасибо