Панды, аппроксимирующие гистограмму для больших данных - PullRequest
0 голосов
/ 06 июня 2019

У меня есть фрейм данных (около 10 тыс. Строк) следующего вида:

id   |  voted
123      1.0
12       0.0
215      1.0
362      0.0
...

И я хочу представить это на гистограмме и посмотреть, где значения в основном равны 0,0, а где они в основном равны 1,0. (порядок индексов в первом столбце важен, так как данные отсортированы).

Я попытался сделать гистограмму, но даже если я ограничусь небольшим подмножеством кадра данных, график все равно не будет читаем:

enter image description here

Есть ли способ аппроксимировать области, которые в основном равны 1,0, с помощью одного более толстого столбца, как мы делаем для гистограмм, когда мы устанавливаем для бинов большее и меньшее число?

1 Ответ

0 голосов
/ 06 июня 2019

Поскольку вы ищете интервальное приближение для плотности голосов, возможно, вы можете добавить к нему скользящее среднее :

df['ma'] = df['voted'].rolling(5).mean()

При этом у вас всегда будет среднее значение, затем вы можете построить его по индексам в виде линейного графика, если значение близко к 1, то вы знаете, что у вас есть группа идентификаторов, которая голосует с 1,0.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...