Ввести пропущенные значения со средним значением столбца в машинном обучении - PullRequest
0 голосов
/ 23 февраля 2020

Я знаю, что вменение пропущенных значений - это именно то, что звучит, я говорю о вменении его с помощью среднего значения столбца. Я обычно вменяю пропущенные значения перед тем, как разделить данные на обучающие и тестируемые, но потом я увидел это QnA с надписью

ВНИМАНИЕ: если вы хотите использовать это для машинного обучения / данных Наука: с точки зрения науки о данных, сначала неправильно заменять NA, а затем разбивать на тренировку и тестировать ... Вы ДОЛЖНЫ сначала разделить на тренировку и тестирование, затем заменить NA на среднее значение на тренировке и затем применить эту модель предварительной обработки с состоянием для тестирования, смотрите ответ с участием sklearn ниже! - Фабиан Вернер 28 августа 1919 в 9: 18

Что это значит? мы можем сделать это? и как мы это делаем? Есть ли разница между этим до или после разделения данных? если да, то почему? Пожалуйста, помогите мне понять, потому что я совершенно запутался из-за этого.

1 Ответ

1 голос
/ 23 февраля 2020

Да, это правильное утверждение. Сначала следует разбить данные на данные поезда и действительные / тестовые данные, рассчитать среднее значение для данных поезда и применить их к действительным / тестовым данным.

Фактически это относится к любой обработке, основанной на сами данные. Если вы вычисляете и преобразуете весь набор данных, вы пропускаете информацию в данные. Но мы хотим иметь правильную валидацию, поэтому набор валидных / тестовых данных должен обрабатываться точно так же, как поезд

...