Визуализация корреляции между двумя столбцами в Python - PullRequest
0 голосов
/ 11 октября 2019

У меня есть две колонки. Первый столбец содержит данные, относящиеся к зарплате, а второй столбец содержит данные, относящиеся к house_rent сотрудников. Теперь, используя python, я хочу найти корреляцию между ними. Есть ли в Python способ визуализации корреляции:

Salary   house_rent
10000    50
10000    50
3000     465

Цель этой задачи - найти взаимосвязь между зарплатой и арендной платой за жилье. Например, у некоторых сотрудников может быть огромная зарплата, но небольшая арендная плата за дом, а у некоторых других может быть маленькая зарплата и огромная арендная плата за дом. Обратите внимание, что вполне может быть так, что два человека имеют одинаковую зарплату и аренду жилья. Можно ли визуализировать это в python?

Ответы [ 2 ]

1 голос
/ 11 октября 2019

Как уже было сказано, вы можете использовать метод corr, представленный в pandas, чтобы получить корреляцию. Лучшим способом визуализации было бы использование библиотеки seaborn вместо matplotlib.

import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
sns.set(style="ticks", color_codes=True)    
df= pd.read_csv('path_to_your_csv_file')
g = sns.pairplot(df)
plt.show()

Для получения дополнительной информации см. https://seaborn.pydata.org/generated/seaborn.pairplot.html и https://towardsdatascience.com/visualizing-data-with-pair-plots-in-python-f228cf529166

1 голос
/ 11 октября 2019

Вы можете построить линию линейной регрессии, используя sklearn.linear_model.LinearRegression:

https://scikit -learn.org / stable / modules / generate / sklearn.linear_model.LinearRegression.html

Вы также можете построить корреляционную матрицу, используя pyplot.matshow () из matplotlib:

import matplotlib.pyplot as plt

plt.matshow(dataframe.corr())
plt.show()
...