эти файлы .crc просто создаются низкоуровневыми битами привязки Hadoop FS, чтобы он мог определить, когда блок поврежден, и, в HDFS, переключиться на копию данных другого узла данных для чтения и выгрузкиотключить повторную репликацию одной из хороших копий.
На S3 остановка коррупции оставлена на AWS.
То, что вы можете получить на S3, - это этаг файла, который являетсяmd5sum на небольшой загрузке;при многоэтапной загрузке это какая-то другая строка, которая снова изменяется при загрузке.
Вы можете получить это значение с помощью версии S3A-коннектора Hadoop 3.1+, хотя по умолчанию distcp отключеночень запутался при загрузке из HDFS.Для более ранних версий вы не можете получить это, и команда aws s3
не показывает это.Вам придется попробовать другие библиотеки S3 (это всего лишь запрос HEAD)