У меня следующий рабочий процесс.Мне нужно идентифицировать дубликаты файлов на S3, чтобы избежать дубликатов в моем месте назначения (Redshift).
- Загружать файлы в S3 каждые 4 часа с FTP-сервера (Структура хранения файлов: год / месяц / дата /час / минута / имя файла)
- Загрузка S3 в Redshift после извлечения всех файлов (за этот интервал)
Это непрерывное задание, которое будет выполняться каждые 4 часа.
Проблема:
Иногда на S3 присутствуют файлы с одинаковым содержимым, но разными именами.Эти файлы могут принадлежать разным интервалам или разным дням.Например, если файл прибывает, скажем, one.csv 1 октября 2018 года и содержит 1,2,3,4 в качестве содержимого, то возможно, что 10 октября 2018 года файл может прийти с тем же содержанием 1,2,3,4, но с другимимя файла.Я хочу избежать загрузки этого файла в S3, если содержимое одинаково.Я знаю, что могу использовать файловый хеш, чтобы идентифицировать два идентичных файла, но моя проблема в том, как добиться этого на S3 и так же с таким большим количеством файлов.Какой будет наилучший подход для продолжения?
В сущности, я хочу избежать загрузки данных в S3, который уже присутствует.