Question

Сценарий таков:

Я использую spark для чтения s3-bucket, где некоторые объекты (parquet) были переведены в glacier класс хранения. Я не пытаюсь прочитать эти объекты , но есть ошибка на spark, использующем такие типы блоков (https://jira.apache.org/jira/browse/SPARK-21797).

Существует обходной путь, который «решает» эту проблему: https://jira.apache.org/jira/browse/SPARK-21797?focusedCommentId=16140408&page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel#comment -16140408 . Но, глядя на код: https://github.com/apache/spark/pull/16474/files, вызовы по-прежнему выполняются и пропускаются только те файлы, которые вызывают IOException. Есть ли лучший способ настроить Spark для загрузки Standard объектов только на s3-bucket?.

Steve Loughran · Answer 1 · 11 января 2020

кто-то (вы?) Может исправить https://issues.apache.org/jira/browse/HADOOP-14837; если s3a вызовет указанное c исключение, если попытка чтения ледниковых данных не удастся
, то искра должна распознать и пропустить это, когда это произойдет

Я не думаю, что вызов S3 в LIST указывает, когда объект оледеняется, поэтому фильтрация не может быть выполнена во время планирования / разбиения запроса. В этот момент процесса вызов HEAD для каждого объекта будет очень дорогим.

Apache -искра - чтение данных из корзины aws -s3 с объектами ледника

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Apache -искра - чтение данных из корзины aws -s3 с объектами ледника

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы