У меня есть набор данных с 69 столбцами и 50000 строк.
Мой набор данных содержит только двоичные и числовые переменные. Более того, некоторые двоичные переменные имеют некоторые пропущенные значения (около 5%).
Я знаю, что должен разделить набор данных на валидацию тестов, а затем выполнить вменение (я хочу использовать мышей с методом logreg
).
У меня есть несколько вопросов по этому поводу:
Должен ли я выполнять вменение только на наборе поездов или также на испытательных и проверочных наборах? Если нет, как мне заполнить NA в наборах тестов и валидации?
Мой профессор сказал мне, что я должен уменьшить размеры моего набора данных. Могу ли я использовать PCA для этого? И нужно ли это делать до или после вменения? И нужно ли применять его только к тесту поезда или также к двум другим сетам?
Кроме того, я пытался использовать мышей, но это невероятно медленно для моего набора данных (потребовалось около 50 минут для вменения половины моих данных). Знаете ли вы какие-либо методы для ускорения этого процесса? (Я читал здесь на этом форуме о таких методах, как quickpred()
, но для этого нужно указать минимальную корреляцию, а я не знаю, сколько это в моем наборе данных.