неиспользуемой сводной таблице памяти с разделами - PullRequest
0 голосов
/ 30 апреля 2019

Как и в случае агрегирования, divk pivot_table уменьшает количество разделов до 1, что приводит к ошибкам памяти при повороте очень больших кадров данных dask.

Как это можно сделать для больших кадров данных?Нужно написать пользовательскую сводную функцию строка за строкой, используя массивы?

Я немного прочитал ее, но не смог найти способ сводной таблицы с map_partitions.

Этот пример кодапоказывает, что полученный dask df имеет только один раздел.

df=pd.DataFrame([1,2,3,4,5],columns=['lng']);df['lat']=[4,5,6,7,8];df['altsuf']=[10.11,10.11,10.11,99.0,99.1]
h=dd.from_pandas(df,5)
h=h.categorize(columns=['lng','lat'],compute=False)
pivot = dd.pivot_table(h, index = 'lat', columns = 'lng', values = 'altsuf')
pivot
...