Значение столбца обновления PySpark DataFrame на основе минимального / максимального условия для значения временной метки в другом столбце - PullRequest
1 голос
/ 06 августа 2020

У меня есть следующий фрейм данных:

col1        col2 
            
    1   2020-02-27 15:00:00 

    1   2020-02-27 15:04:00 

Мне нужен вывод как

col1        col2            col3

    1   2020-02-27 15:00    
    1   2020-02-27 15:04    Y

На основе максимального значения временной метки, представленного в col2, значение col3 должно быть заполнено как Y или null.

Я пробовал следующий подход:

df = spark.sql("select col1,col2 from table")

max_ts = df.select(max("col2")).show() 

y=(f.when(f.col('col2') == max_ts, "Y")) 

df1 = df.withColumn('col3',y) 

Вышеупомянутый подход дает только нулевой вывод.

Пожалуйста, предложите возможное решение или ошибки?

TIA.

Изменить: мне нужно выполнить groupBy для col1 и получить максимальное значение в col2

1 Ответ

1 голос
/ 06 августа 2020

Возможно, это будет полезно -

API DSL

max(..).over(window)

df2.show(false)
    df2.printSchema()
    /**
      * +----+-------------------+
      * |col1|col2               |
      * +----+-------------------+
      * |1   |2020-02-27 15:00:00|
      * |1   |2020-02-27 15:04:00|
      * +----+-------------------+
      *
      * root
      * |-- col1: integer (nullable = true)
      * |-- col2: timestamp (nullable = true)
      */

    val w = Window.partitionBy("col1")
    df2.withColumn("col3",
      when(max("col2").over(w).cast("long") - col("col2").cast("long")=== 0, "Y")
    )
      .show(false)

    /**
      * +----+-------------------+----+
      * |col1|col2               |col3|
      * +----+-------------------+----+
      * |1   |2020-02-27 15:00:00|null|
      * |1   |2020-02-27 15:04:00|Y   |
      * +----+-------------------+----+
      */

Spark SQL

 df2.createOrReplaceTempView("table")
    spark.sql(
      """
        | select col1, col2,
        |   case when (cast(max(col2) over (partition by col1) as long) - cast(col2 as long) = 0) then 'Y' end as col3
        | from table
      """.stripMargin)
      .show(false)

    /**
      * +----+-------------------+----+
      * |col1|col2               |col3|
      * +----+-------------------+----+
      * |1   |2020-02-27 15:00:00|null|
      * |1   |2020-02-27 15:04:00|Y   |
      * +----+-------------------+----+
      */
...