У меня есть данные о пропускной способности, которые определяют использование протокола по тоннажу и часам. Основываясь на протоколах, вы можете определить, когда что-то просто соединяется с фактически используемым (1000 бит по сравнению с миллионами или миллиардами бит) в тот час для этого конкретного протокола. Проблема в том, что при рассмотрении каждого протокола все они сильно искажены. Где 80% записей только что связаны или что я называю "шумом".
Моя задача состоит в том, чтобы отделить этот шум и сосредоточиться только на том, когда протокол фактически используется. Все мои одноклассники просто делают это вручную и удаляют с низким порогом. Я надеялся, что есть способ автоматизировать это и использовать статистику вместо простого выбора порога, который "выглядит хорошо". У нас есть что-то вроде 30 разных протоколов, каждый с разным количеством битов, которые будут представлять «шум», то есть прототип загрузки может иметь 1000 бит, где приложение для обмена сообщениями может иметь 75 бит, когда они подключены, но не используются в полной мере. Точно так же они будут иметь различные средства и промежутки между, то есть среднее значение загрузки составляет 215 000 000, а обмен сообщениями - 5 000 000. Между ними нет определенного шаблона.
Кроме того, этот «шум» имеет много соединений, но составляет только 1-3% от общей используемой полосы пропускания, поэтому перед нами стоит задача определить фактическое использование по сравнению с пассивным использованием.
Я не хочу никакого реального кода, так как я хотел бы попрактиковаться с реализацией и созданием решения самостоятельно. Но логика, процесс или название статистического метода были бы очень полезны.