Я пытаюсь выполнить вменение для набора данных, который имеет 69 столбцов и более 50000 строк. Мой набор данных имеет разные типы переменных:
- столбцы, которые представляют только двоичные переменные (0,1)
- категориальные столбцы
- столбцы, которые принимают непрерывные числовые данные
Теперь я хочу выполнить вменение и знаю, что мои столбцы имеют высокий уровень мультиколлинеарности.
Нужно ли разбивать мой набор данных на 3 различных подмножества (по одному для каждого из 1), 2), 3) типа столбца, который у меня может быть), или я должен выполнить вменение для всего набора данных?
Проблема в том, что мыши-компоновщики имеют разные методы для каждого из этих типов. И если я запускаю три разных раза, должен ли я принимать во внимание весь набор данных или только эту конкретную часть?