Я новичок в пандах и хотел бы воспользоваться вашей помощью.
У меня есть два файла, один из них очень большой (100G +), который мне нужно объединить, основываясь на некоторых столбцах. Я пропускаю несколько строк в большом файле, таким образом, я получаю файл как буфер для метода read_csv.
Фирси, я пытался использовать панд. Однако когда я попытался открыть файл с помощью pandas, процесс был остановлен операционной системой.
with open(self.all_file, 'r') as f:
line = f.readline()
while line.startswith('##'):
pos = f.tell()
line = f.readline()
f.seek(pos)
return pd.read_csv(f,sep='\t')
Впоследствии я попытался использовать dask вместо pandas, однако dask не может получить буфер в качестве входных данных для метода read_csv, и это не удалось.
return dd.read_csv(f,sep='\t')
Как открыть большой файл в виде буфера и объединить два кадра данных?
Спасибо!