Панды read_csv для больших файлов занимают слишком много времени для загрузки данных - PullRequest
0 голосов
/ 25 октября 2019

У меня есть большой файл (например, 20 Гб). Я хочу прочитать некоторые образцы этих данных, пропуская строки, но это занимает слишком много времени, чтобы пропустить строки и прочитать несколько строк

pd.read_csv(dataset_path, skiprows=100000000, nrows=100, encoding="utf-16")

пропускает строкив файле получить слишком много времени? способ пропустить строки быстрее?

1 Ответ

0 голосов
/ 25 октября 2019

вы можете попробовать читать чанк по чанку, а не пропускать строки

Прочитать чанк, который вы предпочитаете иметь

iter_csv = pd.read_csv(='sample.csv', iterator=True, chunksize=10000,error_bad_lines=False)
data = pd.concat ([chunk.loc[chunk['Column_name']==1)] for chunk in iter_csv] )
...