- У меня много паркетных файлов на S3 (Размеры файлов варьируются от 100 МБ до 400 МБ)
- Цель состоит в том, чтобы обрабатывать файл одновременно, причем 1 файл обрабатывается только одним разделом Spark.
Я пытался использовать spark.sql.files.maxPartitionBytes, проблема в том, что если я установлю его на небольшое значение, то Spark разделит файл для чтения по нескольким разделам, если я установлю его на высокийзначение, то Spark будет читать несколько файлов из одного раздела.(Я проверял это с помощью rdd (). GetPartitions ())
Есть ли способ заставить Spark прочитать один файл в 1 файле паркета в 1 разделе Spark?
Спасибо