Пример набора данных Python на основе распределения объекта - PullRequest
0 голосов
/ 25 сентября 2019

Я застрял с проблемой классификации немаркированных данных.Одна из проблем, с которыми я сталкиваюсь, заключается в том, что набор данных является несбалансированным, и я хотел бы немного его улучшить, чтобы дать менее сложную работу алгоритмам кластеризации.

Хотя я могу использовать одну из функций, которые мызнать важно для кластеризации является несбалансированным.На рисунке ниже, где ось X - это скорость, вы можете видеть, что набор данных включает в себя в основном медленные скорости.Imbalanced data set

Возможно ли на основе этого распределения попытаться выбрать набор данных более равномерно?Например, выбрать меньшее количество записей в процентах от низкой скорости и более высоких процентов от более высоких скоростей?

Пакет sklearn, похоже, не имеет такой функциональности.Можете ли вы помочь найти соответствующие пакеты?Я совершенно уверен, что ваши ответы помогут гораздо больше, чем я.

С уважением, Алекс

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...