Distplot в морском заливе в питоне - PullRequest
0 голосов
/ 21 июня 2019

Я работаю с титаническим набором данных. Для визуализации распределения данных я использую методы построения морских линий. Но я не могу понять аргументы distplot и его окончательный вывод, что он дает. Я хочу знать использование аргументов (параметров), используемых в следующих строках, особенно использование бинов и осей [0] и kde = False.

ax = sns.distplot(women[women['Survived']==1].Age.dropna(), bins=18, 
                  label = survived, ax = axes[0], kde =False)

ax = sns.distplot(women[women['Survived']==0].Age.dropna(), bins=40, 
                  label = not_survived, ax = axes[0], kde =False)

Graph

Я уже искал distplot в документации и просматривал сеть, но ничего не написано четко.

1 Ответ

0 голосов
/ 22 июня 2019
  1. оси [0]

Исходя из вашего кода, я предполагаю, что axes должен быть списком Axes объектов, а axes[0] означает, что вы обращаетесь к первому объекту всписок.Когда вы используете ax=axes[0] означает, что вы хотите, чтобы ваш график был на левой стороне.Пожалуйста, посмотрите этот полезный пост .

kde = False

По умолчанию seaborn отображает как оценку плотности ядра , так и гистограмму, kde=False означает, что вы хотите скрыть ее и отображать только гистограмму.

bin

По статистике, гистограмма является непараметрической оценкой, и ее форма отражает распределение ваших данных.Количество бинов будет влиять на форму.Таким образом, вы не должны просто случайным образом выбирать номер корзины, если вы хотите, чтобы ваш график представлял ваше распределение данных.Наиболее распространенный способ определения подходящего количества ячеек - это использование правила Фридмана-Диакониса , которое также является настройкой по умолчанию в .distplot().Другими словами, когда вы используете функцию .distplot() для отображения распределения данных, лучше не указывать аргумент bin.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...