Разбиение набора данных на куски с помощью каскадирования - PullRequest
0 голосов
/ 30 июня 2019

Обеспечивает ли каскадирование способ разбиения набора данных на куски? Например, каждый чанк будет содержать 1000000 записей или добавить до 1 ГБ и т. Д. Every + Buffer существует, но перед ним должна стоять GroupBy, которая мне не нужна (я тоже не уверен предназначен ли он для использования таким образом или как именно его реализовать).

1 Ответ

0 голосов
/ 04 июля 2019

У вас установлен Python?

import pandas as pd
for i,chunk in enumerate(pd.read_csv('C:/your_path_here/main.csv', chunksize=1000000)):
    chunk.to_csv('chunk{}.csv'.format(i))

или

import os
os.getcwd()

csvfile = open('C:/your_path/Book1.csv', 'r').readlines()
filename = 1
for i in range(len(csvfile)):
    if i % 1000000 == 0:
        open(str(filename) + '.csv', 'w+').writelines(csvfile[i:i+1000000])
        filename += 1
...