Создайте 1 спарк-раздел для каждого файла паркета - PullRequest
0 голосов
/ 25 июня 2019
  1. У меня много паркетных файлов на S3 (Размеры файлов варьируются от 100 МБ до 400 МБ)
  2. Цель состоит в том, чтобы обрабатывать файл одновременно, причем 1 файл обрабатывается только одним разделом Spark.

Я пытался использовать spark.sql.files.maxPartitionBytes, проблема в том, что если я установлю его на небольшое значение, то Spark разделит файл для чтения по нескольким разделам, если я установлю его на высокийзначение, то Spark будет читать несколько файлов из одного раздела.(Я проверял это с помощью rdd (). GetPartitions ())

Есть ли способ заставить Spark прочитать один файл в 1 файле паркета в 1 разделе Spark?

Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...