Question

В нашем традиционном процессе DWH мы находим дубликаты и отслеживаем дубликаты записей на основе rowid в традиционных RDBMS.

Например

select pkey_columns, max(rowdid) from table group by pkey_columns

вернет только дубликаты записей, соответствующие максимальным записям. Даже когда мы идентифицируем дубликаты записей, это помогает идентифицировать / отслеживать записи.

Есть ли эквивалент в pySpark? Как это обрабатывается в dwh для проектов перевода pwh park?

Lars G Olsen · Answer 1 · 11 ноября 2019

Я бы предложил вам использовать библиотеку аналитических функций, возможно,

ROW_NUMBER()
OVER( PARTITION BY group pkey_columns 
    ORDER BY sort columns)

какой идентификатор строки эквивалентен в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

какой идентификатор строки эквивалентен в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы