Определение «шума» в данных полосы пропускания - PullRequest
0 голосов
/ 26 марта 2019

У меня есть данные о пропускной способности, которые определяют использование протокола по тоннажу и часам. Основываясь на протоколах, вы можете определить, когда что-то просто соединяется с фактически используемым (1000 бит по сравнению с миллионами или миллиардами бит) в тот час для этого конкретного протокола. Проблема в том, что при рассмотрении каждого протокола все они сильно искажены. Где 80% записей только что связаны или что я называю "шумом".

Моя задача состоит в том, чтобы отделить этот шум и сосредоточиться только на том, когда протокол фактически используется. Все мои одноклассники просто делают это вручную и удаляют с низким порогом. Я надеялся, что есть способ автоматизировать это и использовать статистику вместо простого выбора порога, который "выглядит хорошо". У нас есть что-то вроде 30 разных протоколов, каждый с разным количеством битов, которые будут представлять «шум», то есть прототип загрузки может иметь 1000 бит, где приложение для обмена сообщениями может иметь 75 бит, когда они подключены, но не используются в полной мере. Точно так же они будут иметь различные средства и промежутки между, то есть среднее значение загрузки составляет 215 000 000, а обмен сообщениями - 5 000 000. Между ними нет определенного шаблона.

Кроме того, этот «шум» имеет много соединений, но составляет только 1-3% от общей используемой полосы пропускания, поэтому перед нами стоит задача определить фактическое использование по сравнению с пассивным использованием.

Я не хочу никакого реального кода, так как я хотел бы попрактиковаться с реализацией и созданием решения самостоятельно. Но логика, процесс или название статистического метода были бы очень полезны.

1 Ответ

0 голосов
/ 01 апреля 2019

Есть ли у вас помеченные примеры, и есть ли у вас другие данные помимо пропускной способности? Один из способов сделать это - обучить некоторый классификатор ML, если у вас есть приличный объем данных, о которых вы знаете, что он либо используется, либо не используется. Если у вас есть достаточно данных, вы также можете сделать это без присмотра. Для начала простой наивный байесовский классификатор хорошо работает для бинарных решений. Как вы можете отсутствовать, NB был исходной базой для обнаружения спама (спам это или нет). Так что ваш случай, если это шум или нет, также должен работать, но вы получите более надежные результаты, если у вас есть другие данные в дополнение к пропускной способности для обучения. Кроме того, мне интересно, если нет способа улучшить заголовок вашего сообщения, чтобы он быстрее сообщал ваш вопрос.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...