Рабочий процесс визуализации больших наборов данных Pandas - PullRequest
0 голосов
/ 01 октября 2019

Я работаю с наборами данных в несколько ГБ, которые я обрабатываю параллельно с библиотекой multiprocessing . Это занимает много времени, но это имеет смысл.

Как только у меня будет результирующий набор данных, мне нужно его построить. В этом конкретном случае, с помощью matplotlib , я генерирую мою столбчатую диаграмму с суммированием:

plot = df.plot(kind='bar',stacked=True)
fig = plot.get_figure()
fig.savefig('plot.pdf', bbox_inches='tight')

. На данный момент для больших наборов данных просто неуправляем. Этот метод выполняется последовательно, поэтому не имеет значения, сколько у вас ядер. Сгенерированный график сохраняется в pdf , который, в свою очередь, также очень тяжелый и медленно открывается.

Есть ли альтернативный рабочий процесс для создания более легких графиков?

До сих пор я пытался удалить альтернативные строки из исходного набора данных (этот процесс может повторяться несколько раз, пока не будет достигнут более удобный набор данных). Это делается с помощью:

df = df.iloc[::2]

Допустим, это своего рода работа. Тем не менее, я хотел бы знать, есть ли другие подходы для этого. Как вы сталкиваетесь с этим типом визуализации большого размера?

...