Question

Я знаю, что вменение пропущенных значений - это именно то, что звучит, я говорю о вменении его с помощью среднего значения столбца. Я обычно вменяю пропущенные значения перед тем, как разделить данные на обучающие и тестируемые, но потом я увидел это QnA с надписью

ВНИМАНИЕ: если вы хотите использовать это для машинного обучения / данных Наука: с точки зрения науки о данных, сначала неправильно заменять NA, а затем разбивать на тренировку и тестировать ... Вы ДОЛЖНЫ сначала разделить на тренировку и тестирование, затем заменить NA на среднее значение на тренировке и затем применить эту модель предварительной обработки с состоянием для тестирования, смотрите ответ с участием sklearn ниже! - Фабиан Вернер 28 августа 1919 в 9: 18

Что это значит? мы можем сделать это? и как мы это делаем? Есть ли разница между этим до или после разделения данных? если да, то почему? Пожалуйста, помогите мне понять, потому что я совершенно запутался из-за этого.

Andrey Lukyanenko · Answer 1 · 23 февраля 2020

Да, это правильное утверждение. Сначала следует разбить данные на данные поезда и действительные / тестовые данные, рассчитать среднее значение для данных поезда и применить их к действительным / тестовым данным.

Фактически это относится к любой обработке, основанной на сами данные. Если вы вычисляете и преобразуете весь набор данных, вы пропускаете информацию в данные. Но мы хотим иметь правильную валидацию, поэтому набор валидных / тестовых данных должен обрабатываться точно так же, как поезд

Ввести пропущенные значения со средним значением столбца в машинном обучении

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Ввести пропущенные значения со средним значением столбца в машинном обучении

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы