Я загружаю файл rdx
(csv
-подобный формат) размером около 16 ГБ в виде кадра данных pandas, а затем сокращаю его, удаляя некоторые строки. Вот код:
import pandas as pd
t_min, t_max, n_min, n_max, c_min, c_max = raw_input('t_min, t_max, n_min, n_max, c_min, c_max: ').split(' ')
data=pd.read_csv('/Users/me/Desktop/foo.rdx',header=None)
new_data=data.loc[(data[0] >= float(t_min)) & (data[0] <= float(t_max)) & (data[1] >= float(n_min)) & (data[1] <= float(n_max)) & (data[2] >= float(c_min)) & (data[2] <= float(c_max))]
Этот код работает для небольших файлов (~ 5 ГБ), но, похоже, он не может загрузить файл такого размера. Есть ли обходной путь к этому? Или, может быть, способ сделать это с помощью bash-скрипта?
Любая помощь или предложение с благодарностью.