Question

У меня есть несколько паркетных файлов, где все куски вместе слишком велики, чтобы уместиться в память. Я хотел бы загрузить их в dask dataframe, вычислить некоторые результаты (cumsum) и затем отобразить cumsum в виде графика. По этой причине я хотел выбрать одинаково разнесенное подмножество данных (несколько k строк) из строки cumsum, а затем построить это подмножество. Как бы я это сделал?

DavidK · Answer 1 · 25 февраля 2020

Я думаю, что использование df[serie].sample(...) ( do c) позволит вам избежать кодирования способа выбора репрезентативного поднабора строк.

FabZanna · Answer 2 · 25 февраля 2020

Вы можете попробовать:

slices = 10  # or whatever
slice_point = int(df.shape[0]/slices)

for i in range(slices):
    current_sliced_df = df.loc[i*slice_point:(i+1)*slice_point]

и делать все, что вы хотите с текущим срезом

Как выбрать n одинаково расположенных строк в кадре данных Dask?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как выбрать n одинаково расположенных строк в кадре данных Dask?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы