Гистограмма Seaborn с бигданными - PullRequest
0 голосов
/ 25 июня 2018

Я пытаюсь построить красивую гистограмму большого набора данных из 3 млн строк (у меня 2 ГПУ / 16 ГБ ОЗУ).Несмотря на то, что я предоставил урны, я так и не получил сюжет.Есть ли более эффективный способ построения гистограммы?Смотрите код ниже.

df0 = dd.read_csv(filename, sep="|", header=None, dtype=np.str, error_bad_lines=False, usecols=col0, quoting=3, encoding='ISO-8859-1')
dfs = df0[df0['DocumentTypeStndCode']=='D'].compute()
dfs['Price'] = dfs[pd.to_numeric(dfs['Price'], errors='coerce').notnull()]

sns.distplot(dfs['Price'], bins=[0, 10000, 200000, 400000, 2000000], kde=False)
plt.show()

1 Ответ

0 голосов
/ 25 июня 2018

Это не должно быть проблемой для вас. Я показываю пару секунд, чтобы сгенерировать графики с 50 миллионами строк. Я сначала попробовал панды.

import pandas as pd
import numpy as np
%matplotlib inline
df = pd.DataFrame({
  'values': np.random.beta(0.5, 0.1, size=50000000)
})
hist = df.hist(bins=10)

и то же в морском рожке

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

sns.distplot(df['values'], bins=[0, .10000, .200000, .400000, 2.000000], kde=False)
plt.show()
...