Question

У моего s3 bucket есть 2 вложенных каталога уровня (каталоги уровня 1 ~ 6000, каталоги уровня 2 10-500). проблема в том, что при чтении с помощью spark, например, new SQLContext(sc).read.parquet(path) я получаю замедления от s3 из-за огромного количества вызовов при перечислении файлов.

Я видел этот пост здесь, который имеет дело с патчем для эта проблема: Spark перечисляет все конечные узлы даже в секционированных данных , и эта проблема здесь: https://issues.apache.org/jira/browse/HADOOP-13208

Мне было интересно, если кто-то попытался успешно, потому что я используя Had oop 2.9, и у меня все еще есть эта проблема.

Стив Лафран, если вы можете ответить на него, я был бы очень благодарен.

AmazonS3Client проблема рекурсивного GET-запроса

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

AmazonS3Client проблема рекурсивного GET-запроса

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов