Подходящий способ справиться с отсутствующим значением в данных обучения и испытаний - PullRequest
0 голосов
/ 22 февраля 2019

В медицинских данных нормально, что есть много пропущенных значений.Сейчас я имею дело с данными с десятками числовых функций, и многие из них наверняка имеют большое значение.

В наборе данных есть только 188453 данных (отметка времени) с меткой 0 или 1, что не очень большой набор данных, поэтому я не собираюсь удалять данные, и большинство меток равны 0 (90%из набора данных).Количество некоторых функций даже ниже 10% от всего набора данных.Соотношение недостающих в двух метках практически одинаково (коэффициент корреляции почти равен 1).

Я знаю, что есть несколько способов справиться с отсутствующим значением, например удаление, среднее вменение и так далее.Я могу попытаться использовать MICE, хотя я не знаю, сработает ли это, потому что я замечаю, что коэффициент корреляции в некоторых функциях не одинаков между метками 0 и 1. Например, в метке 0 корр-коэффицент между характеристиками A и B равеннизкий, но высокий на этикетке 1.

Итак, мой вопрос:

  1. Для тех функций, количество которых ниже 10% (некоторые даже ниже 1%), я должен просто датьдо них или это нормально, чтобы попытаться сделать MICE?
  2. Я думаю, что лучше сделать MICE по-разному для метки 0 и метки 1, потому что corr coef в некоторых функциях не совпадают, но если я это сделаю, яможет не знать, как бороться с отсутствующим значением в тестовых данных, потому что я не знаю метку тестовых данных.
  3. Количество двух меток очень дисбаланс.Я понятия не имею, как сделать увеличение данных с таким большим количеством пропущенных значений.

Или, если есть более эффективные способы решения такой ситуации, я могу это знать.Искренне спасибо, что прочитали мой вопрос и ждете ответов!

...