В приведенной ниже таблице есть 2 одинаковые строки, но при сборе данных изменились столбцы имени и второго имени. Однако эти строки дублируются, и выходной набор данных / набор данных должен иметь только одну строку. Как мы можем отфильтровать дубликаты, используя Spark для большого набора данных? Любые указатели будут чрезвычайно полезны.