Я хочу обучить модель случайного леса на наборе данных с большим отсутствием. Мне известен «стандартный метод», когда мы вменяем отсутствующие данные в обучающем наборе, используем те же правила вменения для вменения тестового набора, затем обучаем модель случайного леса на вменяемом обучающем наборе и используем ту же модель для прогнозирования тестовый набор (потенциально делающий это с многократным вменением).
Что я хочу понять, так это разница со следующим методом , который я хотел бы использовать:
Подмножество набора данных в соответствии с отсутствующими шаблонами , Обучите случайные модели леса для каждого из отсутствующих образцов Используйте модель случайного леса, обученную по отсутствующему шаблону A, для прогнозирования данных из набора тестов с отсутствующим шаблоном A. Используйте модель, обученную по шаблону B, для прогнозирования данных из тестового набора с шаблоном B et c.
Как называется этот метод? Каковы статистические преимущества или недостатки этих двух методов? Я был бы очень признателен, если бы кто-то мог направить меня к какой-либо литературе по второму методу или к сравнению этих двух.