Как можно объединить все разделы Dask Data-frame - PullRequest
0 голосов
/ 15 мая 2018

Я хочу использовать Dask Dataframe, и я использовал

    Sales = dd.read_csv('Sales.txt',blocksize=500000,
                     storage_options=dict(anon=True))

   Product = dd.read_csv('Product.txt')

для моих двух файлов, и я объединил две таблицы

df = sales_location = Sales.merge(Product, how='left', on ='Key')

Файлы продаж составляют 28M строк, если я не использую *Опция 1007 * не создает разделы, а процесс слишком длинный (даже df.head ()), но если я использую blocksize (более 1 раздела), то процесс сортируется, но не все файлы, я вижу толькочасть данных.

Так что мой вопрос: как сделать процесс быстрее и со всеми файлами.Я хочу создать большой основной файл с фреймом данных Dask и создать небольшие фреймы данных для анализа.

...