Question

Когда я использую spark локально, записывая данные в мою локальную файловую систему, он создает некоторый полезный файл .crc.

При использовании одного и того же задания в Aws EMR и записи в S3 файлы .crc не записываются.

Это нормально?Есть ли способ заставить запись файлов .crc на S3?

Steve Loughran · Answer 1 · 16 октября 2018

эти файлы .crc просто создаются низкоуровневыми битами привязки Hadoop FS, чтобы он мог определить, когда блок поврежден, и, в HDFS, переключиться на копию данных другого узла данных для чтения и выгрузкиотключить повторную репликацию одной из хороших копий.

На S3 остановка коррупции оставлена на AWS.

То, что вы можете получить на S3, - это этаг файла, который являетсяmd5sum на небольшой загрузке;при многоэтапной загрузке это какая-то другая строка, которая снова изменяется при загрузке.

Вы можете получить это значение с помощью версии S3A-коннектора Hadoop 3.1+, хотя по умолчанию distcp отключеночень запутался при загрузке из HDFS.Для более ранних версий вы не можете получить это, и команда aws s3 не показывает это.Вам придется попробовать другие библиотеки S3 (это всего лишь запрос HEAD)

Spark не выводит .crc файлы на S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark не выводит .crc файлы на S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы