Question

Ниже приведен фрагмент кода, который перебирает исходный код и извлекает значения. Есть ли эффективный способ сделать это? Так как данные огромны и время не приемлемо.

 values = df.select(df["guid"],df["lineoff_date"],df["request_id"],df["nqc_qty"])
    for row in values.collect():
        guid = row.guid
        lineoffdate = row.lineoff_date
        req_id = row.request_id
        nqc_qty = row.nqc_qty

Собранное значение снова используется для извлечения подробностей из других таблиц, как показано ниже

fetchKatashiki = "SELECT katashiki FROM        apv_ive.vehicle_data_request_details WHERE guid=" + "\'" + str(guid) + "\'"

И для выбранных значений снова устанавливается значение df, как показано ниже

df1= df.withColumn("katashiki" ,F.lit(str(katashiki)))

Все это в l oop.

Спасибо, Аруна

итерация pyspark с использованием collect

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

итерация pyspark с использованием collect

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы