Как увеличить производительность задания отправки Spark при работе с огромными наборами данных? - PullRequest
0 голосов
/ 31 мая 2018

У меня есть около 100 файлов (файлы CSV, сжатые в формате .GZ) на моем HDFS Dir, и каждый файл имеет почти 100 КБ записей, в то время как я пытаюсь читать записи и назначать для df, он читает файл за файлом и занимает большечем час, чтобы обработать эти 100 файлов.Я пробовал разные подходы, такие как отправка в режиме пряжи и увеличение памяти, но ни один из них не увеличил производительность?

  --master yarn \
  --deploy-mode client \
  --driver-memory 15G \
  --executor-memory 10G \
  --num-executors 8 \
  --executor-cores 8

Может кто-нибудь помочь мне с этим справиться?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...