Есть ли общий способ добавления уникального идентификатора в DataFrame. Я хотел бы использовать его, чтобы определить, изменились ли какие-либо входные данные для преобразования, которое добавляется в таблицу.
Я предполагаю, что приведенное ниже может сработать. Но есть ли стандартный способ для подобных вещей?
from pyspark.sql import functions as F
(
input_df
.agg(
F.sum(
F.hash(
F.concat(*[F.col(c) for c in df.columns])
)
)
)
)