Question

У меня много паркетных файлов на S3 (Размеры файлов варьируются от 100 МБ до 400 МБ)
Цель состоит в том, чтобы обрабатывать файл одновременно, причем 1 файл обрабатывается только одним разделом Spark.

Я пытался использовать spark.sql.files.maxPartitionBytes, проблема в том, что если я установлю его на небольшое значение, то Spark разделит файл для чтения по нескольким разделам, если я установлю его на высокийзначение, то Spark будет читать несколько файлов из одного раздела.(Я проверял это с помощью rdd (). GetPartitions ())

Есть ли способ заставить Spark прочитать один файл в 1 файле паркета в 1 разделе Spark?

Спасибо

Создайте 1 спарк-раздел для каждого файла паркета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Создайте 1 спарк-раздел для каждого файла паркета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов