Как рассчитать недостающее значение в тестовом наборе? - PullRequest
0 голосов
/ 09 февраля 2020

Я сейчас обрабатываю недостающие данные. В моем наборе тестов и поездов отсутствуют данные. Я немного запутался в том, что делать с отсутствующими данными в наборе test . Если я вменяюсь с использованием метода «среднее», должен ли я использовать среднее значение, рассчитанное на основе набора поездов или набора тестов, если я хочу вменять отсутствующее значение в наборе test . Спасибо за помощь!

Ответы [ 2 ]

1 голос
/ 09 февраля 2020

В общем, вы не должны вычислять среднее значение или что-либо другое из набора тестов (лучший способ думать о наборе тестов - это то, что он просто не существует, по крайней мере, пока вы уже не обучили свою модель).

Создайте конвейер преобразования, который может обрабатывать все необходимые этапы предварительной обработки (вменять недостающие данные, стандартизировать, выполнять требуемые функции проектирования, уменьшение размерности ...) на обучающем наборе и когда приходит новое наблюдение (мы должны обработать тест установить только новые наблюдения, которые недоступны во время обучения) применить этот конвейер преобразований к этим новым данным.

1 голос
/ 09 февраля 2020

Вы должны использовать train среднее значение для этого. Вы никогда не должны выводить информацию из test набора данных, поскольку это утечка информации.

Вычисление среднего значения test набора данных даст вашему алгоритму информацию о mean его (очевидно) и, вероятно, неверно улучшит его оценку. на сказанное.

В реальной жизни у вас, как правило, нет возможности рассчитать среднее значение отсутствующих данных (вспомните один входящий пример с отсутствующими значениями).

...