Apache -искра - чтение данных из корзины aws -s3 с объектами ледника - PullRequest
0 голосов
/ 10 января 2020

Сценарий таков:

  • Я использую spark для чтения s3-bucket, где некоторые объекты (parquet) были переведены в glacier класс хранения. Я не пытаюсь прочитать эти объекты , но есть ошибка на spark, использующем такие типы блоков (https://jira.apache.org/jira/browse/SPARK-21797).

Существует обходной путь, который «решает» эту проблему: https://jira.apache.org/jira/browse/SPARK-21797?focusedCommentId=16140408&page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel#comment -16140408 . Но, глядя на код: https://github.com/apache/spark/pull/16474/files, вызовы по-прежнему выполняются и пропускаются только те файлы, которые вызывают IOException. Есть ли лучший способ настроить Spark для загрузки Standard объектов только на s3-bucket?.

1 Ответ

0 голосов
/ 11 января 2020
  1. кто-то (вы?) Может исправить https://issues.apache.org/jira/browse/HADOOP-14837; если s3a вызовет указанное c исключение, если попытка чтения ледниковых данных не удастся
  2. , то искра должна распознать и пропустить это, когда это произойдет

Я не думаю, что вызов S3 в LIST указывает, когда объект оледеняется, поэтому фильтрация не может быть выполнена во время планирования / разбиения запроса. В этот момент процесса вызов HEAD для каждого объекта будет очень дорогим.

...