Question

У меня есть несколько наборов данных с очень неравномерно распределенными значениями: большинство значений очень низкие, но некоторые очень высокие, например, на скриншоте гистограммы или даже более экстремальные.

Меня действительно интересует различия в высоких значениях.

Итак, я ищу метод классификации, который устанавливает много значений разрыва там, где мало значений данных, и большие классы, где есть много значений. Может быть, что-то вроде обратной квантильной классификации.

У вас есть предложение, какой алгоритм может помочь в решении этой задачи, предпочтительно в Python?

Sanardi · Answer 1 · 28 мая 2020

, если вы используете pandas, не могли бы вы просто выбрать значения, превышающие выбранный вами порог, и проанализировать разницу отдельно?

import pandas as pd

df = pd.DataFrame(your data)

df_to_analyze_large_values = df[df.your_Column_of_interest > 100000]

Метод классификации неравномерно распределенных данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Метод классификации неравномерно распределенных данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы