Question

Время от времени мы получаем клиентские данные, которые могут содержать дубликаты, и мы хотим знать, что заранее клиентские данные обычно имеют формат txt или csv, но будут загружены в HDFS, а затем станут видимыми для нас, как мы можемпроверить файл и убедиться, что все возможные дубликаты записей могут быть найдены?

Спасибо.

mdivk · Answer 1 · 28 ноября 2018

так что решение действительно довольно простое:

var df = sqlContext.load("com.databricks.spark.csv", Map("path" -> input_file, "header" -> has_header, "delimiter" -> delimiter, "inferSchema" -> infer_schema))
val df_distinct = df.dropDuplicates();

Как проверить дубликаты записей в папке / файле на HDFS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как проверить дубликаты записей в папке / файле на HDFS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов