Question

У меня есть около 100 файлов (файлы CSV, сжатые в формате .GZ) на моем HDFS Dir, и каждый файл имеет почти 100 КБ записей, в то время как я пытаюсь читать записи и назначать для df, он читает файл за файлом и занимает большечем час, чтобы обработать эти 100 файлов.Я пробовал разные подходы, такие как отправка в режиме пряжи и увеличение памяти, но ни один из них не увеличил производительность?

  --master yarn \
  --deploy-mode client \
  --driver-memory 15G \
  --executor-memory 10G \
  --num-executors 8 \
  --executor-cores 8

Может кто-нибудь помочь мне с этим справиться?

Как увеличить производительность задания отправки Spark при работе с огромными наборами данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как увеличить производительность задания отправки Spark при работе с огромными наборами данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы