Медленный скрипт PySpark с очень низкой громкостью - PullRequest
1 голос
/ 08 июля 2019

На компьютере под управлением 8core / 32G Windows требуется около 40 минут для запуска следующего сценария Python. Почему это так медленно?

for he in range(1, 25):
    he_str = str(he)
    ### df_all is a dataframe that contains only 3200 records ###
    ### df_all does contain 146 columns. Maybe this is why? ###
    df_all = df_all.withColumn('PROFIT_INC_HE' + he_str, functions.lit(0))
    df_all = df_all.withColumn('PROFIT_DEC_HE' + he_str, functions.lit(0))

    ### TIER_PRICE_FACTORS is list of 4 elements ###
    for tiers in TIER_PRICE_FACTORS:
        tiers_str = str(tiers).replace('.', '')

        df_all = df_all.withColumn('PROFIT_INC_HE' + he_str, functions.col('PROFIT_INC_HE' + he_str) \
                                    + functions.col('BID_PROFIT_INC_HE' + he_str + '_' + tiers_str))

        df_all = df_all.withColumn('PROFIT_DEC_HE' + he_str, functions.col('PROFIT_DEC_HE' + he_str) \
                                    + functions.col('BID_PROFIT_Dec_HE' + he_str + '_' + tiers_str))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...