Я хочу использовать Dask Dataframe, и я использовал
Sales = dd.read_csv('Sales.txt',blocksize=500000,
storage_options=dict(anon=True))
Product = dd.read_csv('Product.txt')
для моих двух файлов, и я объединил две таблицы
df = sales_location = Sales.merge(Product, how='left', on ='Key')
Файлы продаж составляют 28M строк, если я не использую *Опция 1007 * не создает разделы, а процесс слишком длинный (даже df.head ()), но если я использую blocksize
(более 1 раздела), то процесс сортируется, но не все файлы, я вижу толькочасть данных.
Так что мой вопрос: как сделать процесс быстрее и со всеми файлами.Я хочу создать большой основной файл с фреймом данных Dask и создать небольшие фреймы данных для анализа.