Различные основанные на сценарии запросы по вменению и машинному обучению - PullRequest
0 голосов
/ 12 октября 2018

Я новичок в науке о данных и учусь вменять и о моделировании обучения.Ниже приведены мои несколько запросов, с которыми я столкнулся при обучении наборов данных.Пожалуйста, предоставьте ответы на эти вопросы.

  1. Предположим, у меня есть набор данных с 1000 наблюдениями.Теперь я тренирую модель на полном наборе данных за один раз.Другим способом я разделил свой набор данных на 80% и 20% и обучил свою модель сначала на 80%, а затем на 20% данных.Это одно и то же или другое?По сути, если я обучаю свою уже обученную модель новым данным, что это значит?

Imputing Related

Другой вопрос связан с вменением.Представьте, что у меня есть набор данных о некоторых пассажирах корабля, где только пассажиры первого класса получили кабину.Существует колонка, в которой содержатся номера кают (категориальные), но очень мало наблюдений имеют эти номера кают.Теперь я знаю, что этот столбец важен, поэтому я не могу удалить его, так как в нем много пропущенных значений, поэтому большинство алгоритмов не работают.Как обрабатывать вменение этого типа столбца?

При вменении данных проверки мы вменяем те же значения, которые использовались для вменения данных обучения, или значения вменения снова вычисляются из проверкисами данные?

Как рассчитать данные в виде строки, например, номера билета (например, A-123).Столбец важен, потому что 1-й алфавит говорит о классе пассажира.Поэтому мы не можем отбросить его.

1 Ответ

0 голосов
/ 13 октября 2018

Предположим, у меня есть набор данных с 1000 наблюдениями.Теперь я тренирую модель на полном наборе данных за один раз.Другим способом я разделил свой набор данных на 80% и 20% и обучил свою модель сначала на 80%, а затем на 20% данных.Это одно и то же или другое?

Трудно сказать: хорошо это или нет.Как правило, если ваши данные (сплиты) взяты из одного и того же дистрибутива - вы можете провести дополнительное обучение.Однако не все типы моделей хороши для этого.Я советую вам провести некую перекрестную проверку с разделением 80/20 и проверкой измерения ошибок перед дополнительным обучением и после.

В основном, если я обучаю свою уже обученную модель новым данным, что делаетэто значит?

Если вы берете наборы данных из одного и того же распределения: вы проводите дополнительное обучение, что теоретически должно оказать положительное влияние на вашу модель.

Представьте, что у меня есть набор данныхнекоторых пассажиров корабля, где только пассажиры первого класса получили кабину.Существует колонка, в которой содержатся номера кают (категориальные), но очень мало наблюдений имеют эти номера кают.Теперь я знаю, что этот столбец важен, поэтому я не могу удалить его, так как в нем много пропущенных значений, поэтому большинство алгоритмов не работают.Как справиться с вменением этого типа столбца?

Вы должны четко понимать, что вы хотите делать при вменении.Если только у первого класса есть значения, как вы можете выполнить вменение для второго или третьего класса?Что вам нужно найти?Колода?Номер кабины?Хотите ли вы найти новые значения или вменять уже существующими значениями?

При импутации данных проверки мы вменяем те же значения, которые использовались для вменения данных обучения, или значения вменения снова вычисляются изсами данные проверки?

Обычно вы запускаете алгоритм вменения для всех имеющихся у вас данных (без целевого столбца).

Как вменять данные в формеСтрока, как номер билета (например, A-123).Столбец важен, потому что 1-й алфавит говорит о классе пассажира.Поэтому мы не можем его отбросить.

Если у вас есть конечное число случаев, вам просто нужно вменять значения в виде строк.Если нет, выполните разработку функций: попытайтесь предсказать букву, число, первую цифру числа, длину (число) и т. Д.

...