Как определить дубликат уровня атрибута в наборе данных с помощью искры

В приведенной ниже таблице есть 2 одинаковые строки, но при сборе данных изменились столбцы имени и второго имени. Однако эти строки дублируются, и выходной набор данных / набор данных должен иметь только одну строку. Как мы можем отфильтровать дубликаты, используя Spark для большого набора данных? Любые указатели будут чрезвычайно полезны.

Как определить дубликат уровня атрибута в наборе данных с помощью искры

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как определить дубликат уровня атрибута в наборе данных с помощью искры

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы