Spark не выводит .crc файлы на S3 - PullRequest
       21

Spark не выводит .crc файлы на S3

0 голосов
/ 15 октября 2018

Когда я использую spark локально, записывая данные в мою локальную файловую систему, он создает некоторый полезный файл .crc.

При использовании одного и того же задания в Aws EMR и записи в S3 файлы .crc не записываются.

Это нормально?Есть ли способ заставить запись файлов .crc на S3?

1 Ответ

0 голосов
/ 16 октября 2018

эти файлы .crc просто создаются низкоуровневыми битами привязки Hadoop FS, чтобы он мог определить, когда блок поврежден, и, в HDFS, переключиться на копию данных другого узла данных для чтения и выгрузкиотключить повторную репликацию одной из хороших копий.

На S3 остановка коррупции оставлена ​​на AWS.

То, что вы можете получить на S3, - это этаг файла, который являетсяmd5sum на небольшой загрузке;при многоэтапной загрузке это какая-то другая строка, которая снова изменяется при загрузке.

Вы можете получить это значение с помощью версии S3A-коннектора Hadoop 3.1+, хотя по умолчанию distcp отключеночень запутался при загрузке из HDFS.Для более ранних версий вы не можете получить это, и команда aws s3 не показывает это.Вам придется попробовать другие библиотеки S3 (это всего лишь запрос HEAD)

...