У меня есть около 100 файлов (файлы CSV, сжатые в формате .GZ) на моем HDFS Dir, и каждый файл имеет почти 100 КБ записей, в то время как я пытаюсь читать записи и назначать для df, он читает файл за файлом и занимает большечем час, чтобы обработать эти 100 файлов.Я пробовал разные подходы, такие как отправка в режиме пряжи и увеличение памяти, но ни один из них не увеличил производительность?
--master yarn \
--deploy-mode client \
--driver-memory 15G \
--executor-memory 10G \
--num-executors 8 \
--executor-cores 8
Может кто-нибудь помочь мне с этим справиться?