Question

Я не могу прочитать данные из файла CSV в память, потому что он слишком большой, то есть выполнение pandas.read_csv с использованием панд не будет работать.

Я хочу получить данные только на основе некоторых значений столбцовкоторый должен вписаться в память.Используя pandas dataframe df, который мог бы гипотетически содержать полные данные из CSV, я бы сделал

df.loc[(df['column_name'] == 1)

CSV-файл содержит заголовок, и он упорядочен, поэтому мне не нужноиспользуйте column_name но порядок этого столбца, если мне нужно.

Как мне этого добиться?Я немного читал о pyspark, но я не знаю, может ли это быть чем-то полезным

Naga Kiran · Answer 1 · 26 сентября 2018

вы можете прочитать порцию CSV-файла по порции и сохранить строки, которые вы хотите иметь

iter_csv = pd.read_csv(='sample.csv', iterator=True, chunksize=10000,error_bad_lines=False)
data = pd.concat ([chunk.loc[chunk['Column_name']==1)] for chunk in iter_csv] )

Как прочитать только часть данных, хранящихся в большом файле CSV в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как прочитать только часть данных, хранящихся в большом файле CSV в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов