Как определить дубликат уровня атрибута в наборе данных с помощью искры - PullRequest
0 голосов
/ 20 февраля 2020

В приведенной ниже таблице есть 2 одинаковые строки, но при сборе данных изменились столбцы имени и второго имени. Однако эти строки дублируются, и выходной набор данных / набор данных должен иметь только одну строку. Как мы можем отфильтровать дубликаты, используя Spark для большого набора данных? Любые указатели будут чрезвычайно полезны.

...