Каковы преимущества вменения по сравнению с обучением на доступных подмножествах для случайного леса? - PullRequest
1 голос
/ 12 апреля 2020

Я хочу обучить модель случайного леса на наборе данных с большим отсутствием. Мне известен «стандартный метод», когда мы вменяем отсутствующие данные в обучающем наборе, используем те же правила вменения для вменения тестового набора, затем обучаем модель случайного леса на вменяемом обучающем наборе и используем ту же модель для прогнозирования тестовый набор (потенциально делающий это с многократным вменением).

Что я хочу понять, так это разница со следующим методом , который я хотел бы использовать:

Подмножество набора данных в соответствии с отсутствующими шаблонами , Обучите случайные модели леса для каждого из отсутствующих образцов Используйте модель случайного леса, обученную по отсутствующему шаблону A, для прогнозирования данных из набора тестов с отсутствующим шаблоном A. Используйте модель, обученную по шаблону B, для прогнозирования данных из тестового набора с шаблоном B et c.

Как называется этот метод? Каковы статистические преимущества или недостатки этих двух методов? Я был бы очень признателен, если бы кто-то мог направить меня к какой-либо литературе по второму методу или к сравнению этих двух.

1 Ответ

0 голосов
/ 24 апреля 2020

Разница в методах заключается в возможности прогнозирования.

Если вы будете обучать разные модели в соответствии с разными отсутствующими шаблонами, они будут обучаться на меньшем количестве данных (из-за отсутствия разделения шаблонов) и будут используется для прогнозирования только соответствующего набора тестов. Используя этот подход, вы можете легко пропустить общие шаблоны в ваших данных для всего вашего набора данных, которые в противном случае (используя все данные) вы бы обнаружили.

Это все еще сильно зависит от вашего конкретного случая и ваших данных. Хороший тест, который проверит, хорошо ли обобщены ваши модели, обученные из-за определенных отсутствующих шаблонов, будет принимать другой набор данных отсутствующих шаблонов, делать в нем простое и быстрое вменение (среднее / режим / медиана и т. Д. c) и проверять разницу в c.

На мой взгляд, этот подход звучит несколько экстремально, поскольку вы добровольно разрезаете свой набор данных поезда на гораздо более мелкие части, чем это могло бы быть. Возможно, он мог бы работать лучше на больших объемах данных, когда сокращение набора данных поезда не сильно ухудшит производительность вашей модели.

О статьях - я не знаю ни одной статьи, в которой сравниваются эти два подхода, но может предложить некоторые хорошие о различных "стандартных" подходах вменения:

...