Уникальная идентификация всей pyspark. sql .DataFrame - PullRequest
0 голосов
/ 07 мая 2020

Есть ли общий способ добавления уникального идентификатора в DataFrame. Я хотел бы использовать его, чтобы определить, изменились ли какие-либо входные данные для преобразования, которое добавляется в таблицу.

Я предполагаю, что приведенное ниже может сработать. Но есть ли стандартный способ для подобных вещей?

from pyspark.sql import functions as F


(
  input_df
  .agg(
    F.sum(
      F.hash(
        F.concat(*[F.col(c) for c in df.columns])
      )
    )
  )
)
...