Построение графика распределения цен - PullRequest
0 голосов
/ 28 мая 2020

У меня есть набор данных с 17 функциями и 14k наблюдениями.

Я хотел бы построить график распределения price, чтобы лучше понять. Функция price имеет тип данных float64 enter image description here

Построение графика распределения цен дает мне следующее

Распределение выглядит следующим образом enter image description here

Почему этот график выглядит так? Что-то не так с моими данными? Как правильно решить эту проблему?

код:

fig, ax = plt.subplots(1, 1, figsize = (9,5))
data['sale_price'].hist(bins=50, ax=ax)
plt.xlabel('Price')
plt.title('Distribution of prices')
plt.ylabel('Number of houses')

1 Ответ

0 голосов
/ 28 мая 2020

Кажется, ваша гистограмма сильно Длиннохвостая . Поскольку у вас есть цены до 3*1e7, тогда как большинство ваших данных намного меньше, порядка 1e6. Таким образом, параметр bin=50 делает так, что первая ячейка включает почти все данные. возможные варианты обработки:

  • Использовать логарифм c интервалы (см. это сообщение )
  • выберите интервалы согласно 0- 75 квантилей

Однако обратите внимание, что второе решение создает уродливое накопление количества значений в правом хвосте гистограммы, что может быть нежелательно. Тем не менее ... Это зависит от данных. Я бы использовал гистограмму логарифмических c для цен на жилье. Думаю, это имеет смысл с точки зрения визуализации

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...