У моего s3 bucket есть 2 вложенных каталога уровня (каталоги уровня 1 ~ 6000, каталоги уровня 2 10-500). проблема в том, что при чтении с помощью spark, например, new SQLContext(sc).read.parquet(path)
я получаю замедления от s3 из-за огромного количества вызовов при перечислении файлов.
Я видел этот пост здесь, который имеет дело с патчем для эта проблема: Spark перечисляет все конечные узлы даже в секционированных данных , и эта проблема здесь: https://issues.apache.org/jira/browse/HADOOP-13208
Мне было интересно, если кто-то попытался успешно, потому что я используя Had oop 2.9, и у меня все еще есть эта проблема.
Стив Лафран, если вы можете ответить на него, я был бы очень благодарен.