Question

Есть ли общий способ добавления уникального идентификатора в DataFrame. Я хотел бы использовать его, чтобы определить, изменились ли какие-либо входные данные для преобразования, которое добавляется в таблицу.

Я предполагаю, что приведенное ниже может сработать. Но есть ли стандартный способ для подобных вещей?

from pyspark.sql import functions as F


(
  input_df
  .agg(
    F.sum(
      F.hash(
        F.concat(*[F.col(c) for c in df.columns])
      )
    )
  )
)

Уникальная идентификация всей pyspark. sql .DataFrame

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Уникальная идентификация всей pyspark. sql .DataFrame

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы