Question

При загрузке данных из файлов паркета или CSV, имеющих разделы NONE. DASK документы не имеют информации о том, как установить и рассчитать это ....

Как правильно настроить и рассчитать деления кадра данных DASK?

rpanai · Answer 1 · 05 июня 2019

Если вы читаете из паркета, вы можете использовать infer_divisions=True, как в этом примере

import dask.dataframe as dd
df = dd.read_parquet("file.parq", infer_divisions=True)

В случае необходимости вы можете напрямую установить индекс при чтении

df = dd.read_parquet("file.parq", index="my_col",
                     infer_divisions=True)

VadimCh · Answer 2 · 05 июня 2019

ОК, я делаю:

divisions =[part_n for part_n in range(f.npartitions)]
f = f.set_index(f.index, divisions=divisions).persist()

Тогда я делаю:

f.groupby('userId').first().compute()

Но последняя операция очень медленная!

Как настроить (рассчитать) деления в dask dataframe?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.