Войти

Запомнить

Регистрация

Лента
Топ
Теги
Новая

wazza 03 февраля 2020 57

Spark паркет файл разделов

0 голосов

wazza / 03 февраля 2020

У меня есть 10000 (каждый размер файла 13 КБ) паркетных файлов в 30 папках. всего 13 МБ.

Для свойства spark.sql.files.maxPartitionBytes установлено значение 128MB (по умолчанию)

Но когда я пытаюсь прочитать данные с помощью Spark, общее количество разделов не равно 235.

Может кто-нибудь сказать мне, как это рассчитывается?

apache--spark--sql
паркет
перегородка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.

Похожие темы

SQL Запрос, чтобы проверить, попадают ли диапазоны дат текущей строки в предыдущую последовательность
Как можно использовать паркетные перегородки, загружая RDD в Spark?
Является ли один паркетный файл в папке партера разделом?
Sqoop Import as-parquetfile на основе значения столбца
Один раздел Hive для многих мест
Как объединить небольшие паркетные файлы в HIVE
Есть ли способ сделать определенные узлы в разделе SLURM предпочтительными по сравнению с другими узлами?
количество разделений kafka topi c и количество различных ключей в данных
Перегородка какфа в Docker
Индекс выходных на основе предыдущего дня

...