Как выбрать n одинаково расположенных строк в кадре данных Dask? - PullRequest
0 голосов
/ 25 февраля 2020

У меня есть несколько паркетных файлов, где все куски вместе слишком велики, чтобы уместиться в память. Я хотел бы загрузить их в dask dataframe, вычислить некоторые результаты (cumsum) и затем отобразить cumsum в виде графика. По этой причине я хотел выбрать одинаково разнесенное подмножество данных (несколько k строк) из строки cumsum, а затем построить это подмножество. Как бы я это сделал?

Ответы [ 2 ]

0 голосов
/ 25 февраля 2020

Я думаю, что использование df[serie].sample(...) ( do c) позволит вам избежать кодирования способа выбора репрезентативного поднабора строк.

0 голосов
/ 25 февраля 2020

Вы можете попробовать:

slices = 10  # or whatever
slice_point = int(df.shape[0]/slices)

for i in range(slices):
    current_sliced_df = df.loc[i*slice_point:(i+1)*slice_point]

и делать все, что вы хотите с текущим срезом

...