Время от времени мы получаем клиентские данные, которые могут содержать дубликаты, и мы хотим знать, что заранее клиентские данные обычно имеют формат txt или csv, но будут загружены в HDFS, а затем станут видимыми для нас, как мы можемпроверить файл и убедиться, что все возможные дубликаты записей могут быть найдены?
Спасибо.