Я застрял с проблемой классификации немаркированных данных.Одна из проблем, с которыми я сталкиваюсь, заключается в том, что набор данных является несбалансированным, и я хотел бы немного его улучшить, чтобы дать менее сложную работу алгоритмам кластеризации.
Хотя я могу использовать одну из функций, которые мызнать важно для кластеризации является несбалансированным.На рисунке ниже, где ось X - это скорость, вы можете видеть, что набор данных включает в себя в основном медленные скорости.
Возможно ли на основе этого распределения попытаться выбрать набор данных более равномерно?Например, выбрать меньшее количество записей в процентах от низкой скорости и более высоких процентов от более высоких скоростей?
Пакет sklearn
, похоже, не имеет такой функциональности.Можете ли вы помочь найти соответствующие пакеты?Я совершенно уверен, что ваши ответы помогут гораздо больше, чем я.
С уважением, Алекс