Как настроить (рассчитать) деления в dask dataframe? - PullRequest
2 голосов
/ 05 июня 2019

При загрузке данных из файлов паркета или CSV, имеющих разделы NONE. DASK документы не имеют информации о том, как установить и рассчитать это ....

Как правильно настроить и рассчитать деления кадра данных DASK?

Ответы [ 2 ]

1 голос
/ 05 июня 2019

Если вы читаете из паркета, вы можете использовать infer_divisions=True, как в этом примере

import dask.dataframe as dd
df = dd.read_parquet("file.parq", infer_divisions=True)

В случае необходимости вы можете напрямую установить индекс при чтении

df = dd.read_parquet("file.parq", index="my_col",
                     infer_divisions=True)
0 голосов
/ 05 июня 2019

ОК, я делаю:

divisions =[part_n for part_n in range(f.npartitions)]
f = f.set_index(f.index, divisions=divisions).persist()

Тогда я делаю:

f.groupby('userId').first().compute()

Но последняя операция очень медленная!

...