проверить наличие дубликатов в Pyspark Dataframe - PullRequest
0 голосов
/ 01 мая 2018

Есть ли простой и эффективный способ проверить фрейм данных Python только на наличие дубликатов (не отбрасывать их) на основе столбцов?

Я хочу проверить, есть ли в кадре данных дуплики, основанные на комбинации столбцов, и если это произойдет, произойдет сбой процесса.

ТИА.

1 Ответ

0 голосов
/ 01 мая 2018

Самый простой способ - проверить, равно ли количество строк в кадре данных количеству строк после удаления дубликатов.

if df.count() > df.dropDuplicates([listOfColumns]).count():
    raise ValueError('Data has duplicates')
...