MemoryError при выполнении pandas внутреннего слияния - PullRequest
0 голосов
/ 05 августа 2020

Я пытаюсь объединить два файла, используя pandas, один из которых очень большой (6 ГБ). Всякий раз, когда я пытаюсь это сделать, я получаю ошибку памяти, так как моя оперативная память (8 ГБ), вероятно, слишком мала для ее обработки. Есть идеи, как я могу это исправить? мой код:

 import pandas as pd
broad_matched = pd.read_csv("FILE A", delim_whitespace=True)
broad_matched2 = broad_matched[~(broad_matched['P'] >= 0.05)]
SNPs= pd.read_csv("FILE B", 
                  sep='\t', 
                 names=["#CHROM","POS1","POS", "rsID","E","F"])
broad_matched2=broad_matched2.drop(columns=['LOG.OR._SE','ID','REF','ALT','ERRCODE','Z_STAT','OR','OBS_CT','TEST','FIRTH.','A1','#CHROM'])
Table1=pd.merge(broad_matched2,SNPs,on='POS',how='inner').dropna()
Table1.to_csv(r'D:/Table1', index = False)

1 Ответ

0 голосов
/ 05 августа 2020

Вы должны посмотреть этот пост . Решение предполагает использование фреймов данных dask.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...