Я не могу прочитать данные из файла CSV в память, потому что он слишком большой, то есть выполнение pandas.read_csv
с использованием панд не будет работать.
Я хочу получить данные только на основе некоторых значений столбцовкоторый должен вписаться в память.Используя pandas dataframe df
, который мог бы гипотетически содержать полные данные из CSV, я бы сделал
df.loc[(df['column_name'] == 1)
CSV-файл содержит заголовок, и он упорядочен, поэтому мне не нужноиспользуйте column_name
но порядок этого столбца, если мне нужно.
Как мне этого добиться?Я немного читал о pyspark, но я не знаю, может ли это быть чем-то полезным