У меня есть Pandas фрейм данных, который составляет ~ 87 миллионов строк. Для того чтобы выполнить некоторую обработку, я сделал это Dask dataframe. Проблема в том, что мне нужно сделать unstack
и plot
, которые не поддерживаются Dask. Я записал фрейм данных Dask в файл h5, но у меня возникают проблемы с памятью при попытке прочитать его как Pandas фрейм данных. Я также получаю сообщение об ошибке при преобразовании Dask DF в Pandas.
По сути, я пытаюсь сделать df2 = df.groupby(['A','B'])['B'].count().unstack('A')
, а затем df2.plot(kind = 'bar', stacked = True)
.
Чтобы добраться до df2
, мне нужно покинуть внешнее объединение двух информационных фреймов. Кто-то предложил мне использовать NumPy массивы, но я не знаю, как бы я сделал соединения и групповые / графы / сюжет. Это возможно с массивами? Поможет ли это с проблемами с памятью? Или другое решение лучше?