Удаляйте дубликаты с помощью структурированной потоковой передачи Spark. - PullRequest
0 голосов
/ 13 сентября 2018

Я работаю над реализацией потокового приложения Spark, и мне нужно удалить дубликаты строк на основе указанного столбца.

Я использую следующий код Scala, но получаю ошибки.

      val intermediateDataframe = df.select(COLUMN_UUID, FUNCTIONAL_ID)
    .withColumn(NAME, lit(NA))
  intermediateDataframe.selectExpr(COLUMN_UUID, FUNCTIONAL_ID, NAME).dropDuplicates(FUNCTIONAL_ID)

Кто-нибудь работал над реализацией фильтра Блума или алгоритма HyperLogLog для удаления дублирующихся строк в Spark Scala?

...