Почему мой Seaborn Pairplot берет на себя вечность, чтобы построить - PullRequest
0 голосов
/ 12 марта 2020

У меня Pandas DataFrame состоит из 274,170 rows and 15 columns. Все они numerical columns. Я заинтересован в использовании Seaborn's Pairplot, чтобы увидеть их distribution and correlation. Из 15 столбцов я хотел бы видеть это для 9 столбцов.

Вот моя попытка:

    plt.figure(figsize=(20,15))
    g = sns.pairplot(df, 
                     palette="husl",
                     vars=["age", "amount", "dir", "type",
                           "reg", "per", "reason",
                           "deal", "policy", "request"])

Это займет вечность! Пожалуйста, в чем проблема. Что я могу сделать, чтобы использовать Seaborn Pairplot, поскольку это тип Data visualization, которого я жду, чтобы правильно понять мои данные.

Спасибо

1 Ответ

1 голос
/ 12 марта 2020

Парный участок морского побережья довольно тяжелый по ресурсам, особенно с большим количеством столбцов и строк. С большим количеством строк я предлагаю построить часть данных (фрейм), чтобы получить довольно хорошее представление о данных.

n = 274_170
frac = 0.10
df = pd.DataFrame(np.random.rand(n, 10),
                  columns = ["age", "amount", "dir", "type", "reg", "per", "reason", "deal", "policy", "request"])
plt.figure(figsize=(20,15))
sns.pairplot(df.sample(frac=frac), palette="husl", vars=["age", "amount", "dir", "type", "reg", "per", "reason", "deal", "policy", "request"])
plt.show()
...