Это зависит от вашего приложения. Если данные с шумом действительны , то обязательно включите их, чтобы найти лучшую модель.
Однако, если данные с шумом недействительны , затем его следует очистить перед установкой модели.
Шум - это широкий термин, вместо этого лучше рассматривать его как выбросы или выбросы.
Большинство обнаружений выбросов Алгоритмы определяют порог и сортируют кандидатов на выбросы в соответствии с заданным значением. В этом случае вы можете уничтожить самые экстремальные значения. Скажем, например, 3xSTD далеко от среднего значения (конечно, если у вас есть распределенный набор данных, подобный гауссовскому).
Итак, я предлагаю построить ваше суждение, основываясь на двух вещах:
- Ваша бизнес-концепция и логика c о достоверности и недействительности. Например: размер, площадь или цена дома не может быть отрицательным числом.
- Ваши математические / алгоритмические значения c logi c. Например: Определите экстремальные значения на основе некоторого порога, чтобы решить (вместе с / без точки № 1), является ли это действительным наблюдением или нет.
Шумные данные сами по себе не вызывают огромных проблем , Крайне шумные данные (т. Е. Экстремальные значения / выбросы) - это те, о которых вы должны действительно беспокоиться! Такие точки будут корректировать гипотезу вашей модели при подборе данных. Следовательно, результаты могут быть резко смещены / неверны.
Наконец, вы можете взглянуть на Pyod инструмент с открытым исходным кодом Pythoni c, который содержит множество различных алгоритмов, реализованных в готовом виде. , (Вы можете выбрать более одного алгоритма и создать пул голосования, чтобы определить экстремальность наблюдений).