В нашем традиционном процессе DWH мы находим дубликаты и отслеживаем дубликаты записей на основе rowid в традиционных RDBMS.
Например
select pkey_columns, max(rowdid) from table group by pkey_columns
вернет только дубликаты записей, соответствующие максимальным записям. Даже когда мы идентифицируем дубликаты записей, это помогает идентифицировать / отслеживать записи.
Есть ли эквивалент в pySpark? Как это обрабатывается в dwh для проектов перевода pwh park?