Обработка выбросов в интеллектуальном анализе данных - PullRequest
0 голосов
/ 23 сентября 2018

У меня есть один столбец в столбце Индекс массы тела, который очень далек от других данных.Второй максимум - 38,1, тогда как выброс - 294. На самом деле это 29,4, и при сборе данных произошла ошибка.Я не хочу удалять строку, так как у меня ограниченное количество данных.Может кто-нибудь сказать лучший технический подход для решения этой проблемы?Это хороший способ обработать значение как отсутствующее и применить какой-либо метод, такой как вычисление максимизации ожидания или байесовское множественное вменение?Пожалуйста, помогите мне решить проблему.Спасибо

Ответы [ 2 ]

0 голосов
/ 10 ноября 2018

Да, если это действительно выброс, то все в порядке, если вы удалите его и используете методы вменения для его замены.

Прежде чем использовать его, убедитесь, что вы понимаете концепцию множественного вменения.Вы также должны изменить свои этапы обработки после самого вменения, если вы хотите использовать MI правильно.(если вы используете это, вы можете взглянуть на пакет мышей)

Если вы не хотите работать с несколькими вмененными наборами данных, алгоритмы вменения на основе EM - хороший выбор.(если вы используете R, вы можете посмотреть пакеты VIM или imputeR)

0 голосов
/ 24 сентября 2018

Обнаружьте неверные данные, замените их любым вменением данных техникой, которая вам нравится, если необходимо.

Конечно, было бы лучше, если бы вы могли просто оставить неверные данные и спроектироватьОбщий подход достаточно надежен, чтобы справиться с этим.

...