сюжет, созданный набором данных семьи Гальтона, кажется неправильным - PullRequest
0 голосов
/ 17 апреля 2019

Я скачал набор данных семейства Гальтона и использую следующий код для построения.

df = pd.read_csv('Galton.csv')
X = df.iloc[:,1]
y = df.iloc[:,2]
plt.scatter(X,y)

и я получил этот сюжет

enter image description here

который, кажется, не идеальный сюжет, подобный этому

enter image description here

какая-нибудь подсказка?

1 Ответ

1 голос
/ 17 апреля 2019

Кажется, что вы неправильно используете набор данных, этот один более уместен.

df = pd.read_csv('GaltonFamilies.csv')
data = df.loc[(df['gender'] == 'male')&(df['childNum'] == 1)]
father_height = data['father']
child_height = data['childHeight']
plt.grid(True)
plt.scatter(father_height, child_height, c='k', alpha = .5)

создает этот график.

enter image description here

...