Обнаружение выбросов в ненормально распределенных данных - PullRequest
0 голосов
/ 28 марта 2019

У меня есть большой набор данных, который содержит ежегодные связи компаний.В этом наборе данных я хочу обнаружить ошибки / выбросы.Эти выбросы являются в основном человеческими ошибками.У меня проблемы с выбором, какая стратегия лучше всего подходит для этой проблемы, поскольку мои данные распределяются некорректно.

Мой набор данных содержит около 100 столбцов.

Есть ли у кого-нибудь сведения о методах обнаружения ошибок человека?Подумайте об ошибке запятой, во многих нулях, т. Д.

Заранее спасибо

1 Ответ

1 голос
/ 03 апреля 2019

Хорошо выглядит, это сложная проблема.Похоже, ваши данные имеют следующие особенности.1. НЛП знания: компания рапортует кусок статей.Чтобы проанализировать это, НЛП должен быть адаптирован.2. высокая размерность: в настоящее время у вас есть около 100 столбцов, учитывая результат разложения NLP, в некоторых случаях вы можете иметь тысячи столбцов.3. не нормально распределенный.

Чтобы решить эту проблему, вы можете попытаться: 1. Использовать способ НЛП для преобразования статьи в числовую информацию 2. Использовать типичные новые или нестандартные инструменты для ее поиска.Вы можете попробовать модель SKlearn.https://scikit -learn.org / stable / modules / outlier_detection.html

Надеюсь, это поможет вам.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...