Построение столбца с миллионами строк - PullRequest
0 голосов
/ 04 ноября 2018

У меня есть фрейм данных с миллионами строк (почти 8 миллионов). Мне нужно увидеть распределение значений в одном из столбцов. Этот столбец называется price_per_mile. У меня также есть колонка под названием "Город". Конечная цель - сделать t-тест. Сначала я хочу увидеть распределение данных в 'price_per_mile', чтобы увидеть, нормальны ли данные и нужно ли мне что-то делать для очистки данных. Затем сгруппируйте данные по пяти категориям в столбце «Район», а затем проведите t-тест для каждой возможной пары районов.

Я попытался построить распределение с помощью sns.distplot (), но он не дает мне четкого графика, так как кажется, что есть масштабирование значений на оси Y. Кроме того, диапазон значений, содержащихся в 'price_per_mile', велик.

enter image description here

Затем я попытался построить часть значений, опять же, график не выглядит достаточно ясным и информативным. Масштабирование происходит снова.

result.drop(result[(result.price_per_mile <1) | (result.price_per_mile>200)].index, inplace=True)

Что мне нужно сделать, чтобы график выглядел лучше, который дает мне истинное значение каждого бина, а не просто нормализованное значение? Я прочитал документацию по sns.distplot (), но не нашел ничего полезного.

1 Ответ

0 голосов
/ 05 ноября 2018

Согласно документация для отправки (выделено мое)

norm_hist: bool, необязательно

Если True, высота гистограммы показывает плотность, а не счет. Это подразумевается, если наносится KDE или соответствующая плотность.

Это означает, что если вы хотите ненормализованную гистограмму, вы должны убедиться, что Seaborn дал команду не отображать KDE одновременно

sns.distplot(a, kde=True, norm_hist=False)

enter image description here

sns.distplot(a, kde=False, norm_hist=False)

enter image description here

...