какой идентификатор строки эквивалентен в pyspark? - PullRequest
0 голосов
/ 10 ноября 2019

В нашем традиционном процессе DWH мы находим дубликаты и отслеживаем дубликаты записей на основе rowid в традиционных RDBMS.

Например

select pkey_columns, max(rowdid) from table group by pkey_columns

вернет только дубликаты записей, соответствующие максимальным записям. Даже когда мы идентифицируем дубликаты записей, это помогает идентифицировать / отслеживать записи.

Есть ли эквивалент в pySpark? Как это обрабатывается в dwh для проектов перевода pwh park?

1 Ответ

0 голосов
/ 11 ноября 2019

Я бы предложил вам использовать библиотеку аналитических функций, возможно,

ROW_NUMBER()
OVER( PARTITION BY group pkey_columns 
    ORDER BY sort columns)
...