У меня есть фрейм данных с миллионами строк (почти 8 миллионов). Мне нужно увидеть распределение значений в одном из столбцов. Этот столбец называется price_per_mile. У меня также есть колонка под названием "Город". Конечная цель - сделать t-тест.
Сначала я хочу увидеть распределение данных в 'price_per_mile', чтобы увидеть, нормальны ли данные и нужно ли мне что-то делать для очистки данных. Затем сгруппируйте данные по пяти категориям в столбце «Район», а затем проведите t-тест для каждой возможной пары районов.
Я попытался построить распределение с помощью sns.distplot (), но он не дает мне четкого графика, так как кажется, что есть масштабирование значений на оси Y. Кроме того, диапазон значений, содержащихся в 'price_per_mile', велик.

Затем я попытался построить часть значений, опять же, график не выглядит достаточно ясным и информативным. Масштабирование происходит снова.
result.drop(result[(result.price_per_mile <1) | (result.price_per_mile>200)].index, inplace=True)
Что мне нужно сделать, чтобы график выглядел лучше, который дает мне истинное значение каждого бина, а не просто нормализованное значение?
Я прочитал документацию по sns.distplot (), но не нашел ничего полезного.