Как прочитать только часть данных, хранящихся в большом файле CSV в Python - PullRequest
0 голосов
/ 26 сентября 2018

Я не могу прочитать данные из файла CSV в память, потому что он слишком большой, то есть выполнение pandas.read_csv с использованием панд не будет работать.

Я хочу получить данные только на основе некоторых значений столбцовкоторый должен вписаться в память.Используя pandas dataframe df, который мог бы гипотетически содержать полные данные из CSV, я бы сделал

df.loc[(df['column_name'] == 1)

CSV-файл содержит заголовок, и он упорядочен, поэтому мне не нужноиспользуйте column_name но порядок этого столбца, если мне нужно.

Как мне этого добиться?Я немного читал о pyspark, но я не знаю, может ли это быть чем-то полезным

1 Ответ

0 голосов
/ 26 сентября 2018

вы можете прочитать порцию CSV-файла по порции и сохранить строки, которые вы хотите иметь

iter_csv = pd.read_csv(='sample.csv', iterator=True, chunksize=10000,error_bad_lines=False)
data = pd.concat ([chunk.loc[chunk['Column_name']==1)] for chunk in iter_csv] )
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...