Является ли хорошей идеей исключить зашумленные данные из набора данных для обучения модели? - PullRequest
0 голосов
/ 01 апреля 2020

Будет ли хорошей идеей исключить данные с шумом (которые могут снизить точность модели или вызвать неожиданный вывод для тестирования набора данных) из набора данных для создания набора данных обучения и проверки?

Предположение: Шумные данные нам уже известны

Любые предложения очень ценятся!

1 Ответ

1 голос
/ 01 апреля 2020

Это зависит от вашего приложения. Если данные с шумом действительны , то обязательно включите их, чтобы найти лучшую модель.

Однако, если данные с шумом недействительны , затем его следует очистить перед установкой модели.

Шум - это широкий термин, вместо этого лучше рассматривать его как выбросы или выбросы.

Большинство обнаружений выбросов Алгоритмы определяют порог и сортируют кандидатов на выбросы в соответствии с заданным значением. В этом случае вы можете уничтожить самые экстремальные значения. Скажем, например, 3xSTD далеко от среднего значения (конечно, если у вас есть распределенный набор данных, подобный гауссовскому).

Итак, я предлагаю построить ваше суждение, основываясь на двух вещах:

  1. Ваша бизнес-концепция и логика c о достоверности и недействительности. Например: размер, площадь или цена дома не может быть отрицательным числом.
  2. Ваши математические / алгоритмические значения c logi c. Например: Определите экстремальные значения на основе некоторого порога, чтобы решить (вместе с / без точки № 1), является ли это действительным наблюдением или нет.

Шумные данные сами по себе не вызывают огромных проблем , Крайне шумные данные (т. Е. Экстремальные значения / выбросы) - это те, о которых вы должны действительно беспокоиться! Такие точки будут корректировать гипотезу вашей модели при подборе данных. Следовательно, результаты могут быть резко смещены / неверны.

Наконец, вы можете взглянуть на Pyod инструмент с открытым исходным кодом Pythoni c, который содержит множество различных алгоритмов, реализованных в готовом виде. , (Вы можете выбрать более одного алгоритма и создать пул голосования, чтобы определить экстремальность наблюдений).

...