итерация pyspark с использованием collect - PullRequest
0 голосов
/ 01 мая 2020

Ниже приведен фрагмент кода, который перебирает исходный код и извлекает значения. Есть ли эффективный способ сделать это? Так как данные огромны и время не приемлемо.

 values = df.select(df["guid"],df["lineoff_date"],df["request_id"],df["nqc_qty"])
    for row in values.collect():
        guid = row.guid
        lineoffdate = row.lineoff_date
        req_id = row.request_id
        nqc_qty = row.nqc_qty

Собранное значение снова используется для извлечения подробностей из других таблиц, как показано ниже

fetchKatashiki = "SELECT katashiki FROM        apv_ive.vehicle_data_request_details WHERE guid=" + "\'" + str(guid) + "\'" 

И для выбранных значений снова устанавливается значение df, как показано ниже

df1= df.withColumn("katashiki" ,F.lit(str(katashiki)))

Все это в l oop.

Спасибо, Аруна

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...