Убедитесь, что все данные скопированы с HDFS на S3 - PullRequest
0 голосов
/ 26 ноября 2018

Я использую s3-dist-cp для копирования данных из HDFS в 2 разные папки (или клавиши), скажем, bucket / A и ведро / B , на S3 .Однажды я увидел, что количество файлов A и B различно.Хотя источник тот же.Как я могу убедиться, что все данные из HDFS должны быть правильно скопированы в S3 ?Я только что начал использовать опцию - outputManifest в s3-dist-cp для журналов копируемых файлов.Будет ли этого достаточно?или есть какие-либо другие, чтобы отслеживать файлы, такие как метаданные папок?

...