Как проверить дубликаты записей в папке / файле на HDFS - PullRequest
0 голосов
/ 27 ноября 2018

Время от времени мы получаем клиентские данные, которые могут содержать дубликаты, и мы хотим знать, что заранее клиентские данные обычно имеют формат txt или csv, но будут загружены в HDFS, а затем станут видимыми для нас, как мы можемпроверить файл и убедиться, что все возможные дубликаты записей могут быть найдены?

Спасибо.

1 Ответ

0 голосов
/ 28 ноября 2018

так что решение действительно довольно простое:

var df = sqlContext.load("com.databricks.spark.csv", Map("path" -> input_file, "header" -> has_header, "delimiter" -> delimiter, "inferSchema" -> infer_schema))
val df_distinct = df.dropDuplicates();
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...