Как разделить CSV на несколько файлов CSV, используя Dask - PullRequest
0 голосов
/ 30 апреля 2019

Как разделить CSV-файл на несколько файлов с помощью Dask?

Нижеследующий код, кажется, записывает только в один файл, что занимает много времени, чтобы написать полную вещь. Я считаю, что запись в несколько файлов будет быстрее.

import dask.dataframe as ddf
import dask
file_path = "file_name.csv"
df   = ddf.read_csv(file_path)
futs = df.to_csv(r"*.csv", compute=False)
_, l = dask.compute(futs, df.size)

1 Ответ

2 голосов
/ 30 апреля 2019

Я подозреваю, что когда вы читаете df, у вас есть df.npartitions - это просто 1.

import dask.dataframe as dd

file_path = "file_name.csv"
df = dd.read_csv(file_path)
# set how many file you would like to have
# in this case 10
df = df.repartition(npartitions=10)
df.to_csv("file_*.csv")

Но, насколько я понимаю, это не быстрее.

...