Ошибка памяти при переборе более 500 паркетных файлов - PullRequest
0 голосов
/ 10 июля 2020

Я пытаюсь взять около 500 паркетных файлов в качестве входных данных для моей модели, и когда код повторяется на уровне около 165, он выходит из for l oop и показывает ошибку, что это ошибка памяти. Я получаю уведомление windows о том, что на вашем компьютере мало памяти.

Я использую fastparquet в качестве движка для перебора каждого отдельного файла parquet. Есть ли оборот для того же? введите описание изображения здесь

РЕДАКТИРОВАТЬ: я даю код, который я использовал для того же:

for partition in range(3, 503):

    start_time = datetime.now()
    file_path = adl.ls(lrs_parquet_path)[partition]

    with adl.open(file_path, 'rb') as f, adl.open(
            str(output_preds_path) + "/preds_partition_" + str(partition) + ".csv", 'wb') as b:
        df = pd.read_parquet(f, engine='auto')

        df = utils.scoredf_preprocessing(df)
        scoreing_df = df[features]
        dtm = xgb.DMatrix(data=scoreing_df.drop('eu', axis=1), base_margin=np.log(scoreing_df['eu']))
        preds_ls.append(xgbmod.predict(dtm))
        actual_ls.append(df.agl_net_rcov_xcat_amt.values)
        print(partition, file_path)
...