как построить гистограмму с неравномерными ячейками в Python? - PullRequest
0 голосов
/ 09 июля 2020

для этого кода, я вижу эту гистограмму

'' '

t = unique_seq_Dataframe.groupby(by="frequency").count()
unique_seq_Dataframe.frequency.hist(bins=range(0,50,2))

' '' enter image description here

and for this code, I see this histogram

unique_seq_Dataframe.frequency.hist(bins=10)

enter image description here

I want to see the distribution that is demonstrated in the first plot but I would like to preserve the bars that are seen in the second plot of the 3081 and 4845 without losing the resolution of the first plot. (note that the values are distributed between 1-50, and both of the bars of 3081 and 4845)

see data below введите описание изображения здесь

1 Ответ

0 голосов
/ 13 июля 2020

По определению гистограммы вы не можете поддерживать разрешение нижних значений интервалов, сохраняя при этом более высокие значения. Данные групп биннинга указывают на их ближайшую корзину, чтобы показать вам, какие функции важны. Если вы считаете, что ваши высокие значения не являются выбросами, тогда разница между низкими значениями приближается к нулю. То есть разницу между 10 и 5 можно представить как 0 по сравнению с разницей между 3000 и 10.

Однако, если вы считаете 3000 выбросом, разница между 3000 и 10 искусственно настолько велика, что не имеет значения, и, таким образом, она группируется в ячейку с номером 50. Разница между 10 и 5 является существенной и, следовательно, вы получите желаемое разрешение.

Ваши гистограммы показывают, что две самые большие точки данных являются выбросами. Если вы не хотите рассматривать их как выбросы, тогда все низкие значения в основном эквивалентны и могут быть приняты равными 0. Таким образом, вы получите три столбца на втором графике.

Я добавлю, что просто увеличивая y -axis и количество интервалов по:

unique_seq_Dataframe.frequency.hist(bins=range(0,5000,2))

может дать вам нужный график, но не содержит информации о гистограмме. Наличие такого количества интервалов для включения выбросов сокращает вашу гистограмму до диаграммы рассеяния, где отдельные точки просто нанесены на график.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...