Метод классификации неравномерно распределенных данных - PullRequest
0 голосов
/ 28 мая 2020

У меня есть несколько наборов данных с очень неравномерно распределенными значениями: большинство значений очень низкие, но некоторые очень высокие, например, на скриншоте гистограммы или даже более экстремальные.

Меня действительно интересует различия в высоких значениях.

Итак, я ищу метод классификации, который устанавливает много значений разрыва там, где мало значений данных, и большие классы, где есть много значений. Может быть, что-то вроде обратной квантильной классификации.

У вас есть предложение, какой алгоритм может помочь в решении этой задачи, предпочтительно в Python?

enter image description here

1 Ответ

0 голосов
/ 28 мая 2020

, если вы используете pandas, не могли бы вы просто выбрать значения, превышающие выбранный вами порог, и проанализировать разницу отдельно?

import pandas as pd

df = pd.DataFrame(your data)

df_to_analyze_large_values = df[df.your_Column_of_interest > 100000]

...