Question

Я застрял с проблемой классификации немаркированных данных.Одна из проблем, с которыми я сталкиваюсь, заключается в том, что набор данных является несбалансированным, и я хотел бы немного его улучшить, чтобы дать менее сложную работу алгоритмам кластеризации.

Хотя я могу использовать одну из функций, которые мызнать важно для кластеризации является несбалансированным.На рисунке ниже, где ось X - это скорость, вы можете видеть, что набор данных включает в себя в основном медленные скорости.

Возможно ли на основе этого распределения попытаться выбрать набор данных более равномерно?Например, выбрать меньшее количество записей в процентах от низкой скорости и более высоких процентов от более высоких скоростей?

Пакет sklearn, похоже, не имеет такой функциональности.Можете ли вы помочь найти соответствующие пакеты?Я совершенно уверен, что ваши ответы помогут гораздо больше, чем я.

С уважением, Алекс

Пример набора данных Python на основе распределения объекта

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Пример набора данных Python на основе распределения объекта

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы